クローラーは何を見ることができますか？

PVIcpaq · 2024 年 2 月 3 日午後 7:15

サイトにいくつかのクローラーがいます。コンテンツにアクセスされるリスクはありますか？

ブロック手順を実行する前に、「許容できるクローラーの負荷/リスク」はどの程度ですか？私はほとんど、あるいは全く専門知識がありません。

HAWK · 2024 年 2 月 3 日午後 7:35

それらは公開サイトしかクロールできないため、セキュリティ侵害はありません。しかし、はい、公開コンテンツにはアクセスできます。

Jagster · 2024 年 2 月 3 日午後 8:53

負荷が高すぎると悪影響があり、CPUやRAMを増設する必要があります。Discourseでそれがどれほど簡単に起こりうるかはわかりませんが、PHPベースのWordPressは簡単にダウンさせることができます。しかし、Discourseはボットに対して静的で軽量なコンテンツを提供しており、人間とボットを区別できます。ボットが非常に偽のユーザーエージェントを提供した場合、何を得られるでしょうか…たくさんのJSONテキストでしょうか？

ボットがログインや信頼レベルの障壁などを突破した場合、チームはパニックモードになり、すぐにすべての手を動かす必要があると推測します😜

HAWK · 2024 年 2 月 4 日午前 1:40

また、管理設定から簡単にクローラーをブロックできることにも注意してください。

PVIcpaq · 2024 年 2 月 4 日午前 2:19

どうすれば…か教えていただけると大変助かります。

HAWK · 2024 年 2 月 4 日午前 2:41

サイトのウェブクローラーを制御する

Jagster · 2024 年 2 月 4 日午前 3:37

それがrobots.txtの編集だけではないことを願っています。なぜなら、それは良い振る舞いをするものにしか効果がないからです。実際には、効果的ですが少し難しい解決策が1つだけあります。それはリバースプロキシです。

HAWK · 2024 年 2 月 4 日午前 5:43

そのアプローチは効果的です。私たちはそれ自体を使用しており、ホスティングをご利用のお客様にもお勧めしています。

Jagster · 2024 年 2 月 4 日午前 7:11

Discourseがフィルタリングを使用していることを読むべきですか？

HAWK · 2024 年 2 月 4 日午後 7:31

何をお尋ねになりたいのか分かりません。デフォルトでは何もブロックしませんが、管理者が選択的にブロックできるツールを提供します。

Jagster · 2024 年 2 月 4 日午後 7:36

ボットは a) robots.txt を読み、b) ルールに従うと信頼しているのですね。しかし、悪質なボットはどちらも実行しません。そして、私たちは元の場所に戻りました。ボットが何らかの問題を引き起こす場合、リバースプロキシが最善の解決策です。

ありがとうございます。それを知りたかったです。

HAWK · 2024 年 2 月 4 日午後 8:43

なるほど、言いたいことは分かります。すべてのボットがクローラーとして自己識別したり、ルールに従ったりすると仮定しているわけではありません。確かに、これは正確な科学ではありません。私は単にOP（元の投稿者）への最初の緩和策を提案していただけです。

現在、トラフィックをより具体的に制限する方法に取り組んでいますが、簡単な作業ではありません。

anon36555649 · 2024 年 2 月 4 日午後 10:39

Discourseホストサイトのクローラー数がDigital Oceanサーバーサイトよりも大幅に少ないことに気づきました。どちらもデフォルトの管理者設定です。

ホストサイトは通常、1日あたり10未満のクローラーで、平均約4です。最近の1月の最終日には77クローラーというスパイクがありました。

ほとんどアクティビティのないDigital Oceanサイトは、1日あたり平均約30クローラーですが、サーバーの種類やドメインによってクローラーが多くなる理由がわかる方はいらっしゃいますか？

これらは一般的に、検索エンジンがそれらを見つけられるように、公開サイトやコンテンツを検索/インデックス化しています。これは、より広いオーディエンスにリーチしたいサイトにとっては良いことです。人々は、Discourseサイトで話題になっているものを検索した場合、あなたのサイトを見つけることができます。

クローラーには他の目的があるかもしれませんが、それらが何のためにあるのかすべてはわかりません。これらは、おそらくすでに知っているように、設定でデフォルトでアクセスが拒否されています。

PVIcpaq · 2024 年 2 月 5 日午前 2:37

比較的コンピューターに疎い私ですが、あなたのクローラーに関する専門的な意見を、まるで全米オープン決勝戦を観戦するハンディキャップを持つ観客のようにフォローしてきました…このサイトセキュリティの不可解な部分を紹介してくれてありがとう。

Discourseによって非常に効率的にホストされている私たちのフォーラムは、非常に機密性の高いものです。招待制で参加するユーザーは機密性について非常に神経質になっており、私はできる限り安心させようとしています。クローラーはそれほど有害ではないかもしれませんが（？！）、もし可能であれば完全に排除したいと思っています。私たちのコンテンツがインデックス化されたり、何らかの方法で知られたりすることに関心がないため、それらは私たちにとって何の役にも立ちません。

設定の最適化が最初に行うべきことだと今気づきました。Commitechサポートグループの誰かにこの点で私の設定を調べてもらうことは可能ですか？

ご配慮ありがとうございます。

rahim123 · 2024 年 2 月 5 日午前 3:17

それは良いことですね。Redisに頼って最近レンダリングされたコンテンツをより速く提供するだけだと思っていました。あなたが言及したように、私のフォーラムがDrupalで実行されていたとき、悪質なボットや検索エンジンのクローラーさえも時々ダウンさせていました。しかし、匿名でアクセスされたページの静的HTMLファイルキャッシュを作成し、それらのためのNginxリライトルールを自動的に作成するプラグインをインストールしました。NginxはDrupalのPHPコードをブートストラップせずにそれらを提供し、それは非常に高速で、はるかに多くの匿名トラフィック負荷を処理できました。

HAWK · 2024 年 2 月 5 日午前 4:04

こんにちは。これはセキュリティ上の問題には全く影響しないということを認識しておくことが非常に重要です。クローラーは公開サイトにしかアクセスできません。ログインが必要なサイトであれば、それらにアクセスすることはできません。

もう1つの明確化は、Communiteqは当社とは一切関係がないため、もし彼らがあなたのホストである場合、あなたはDiscourseによってホストされているわけではないということです。

RGJ · 2024 年 2 月 5 日午後 4:47

プライベートで返信しようと思っていましたが、他の人にも役立つかもしれないので、ここに投稿します。

それらはあなたのホームページ（ログイン）ページにのみアクセスしており、コンテンツにアクセスすることはできません。

有害な場合があります。クローラーの種類によっては、公開したくない情報がアクセス可能になっている可能性があります。技術的には、クローラーは公開情報にしかアクセスできませんが、クローラー（および関連する検索エンジン）は情報を発見し、アクセス可能にするのが非常に得意です。

それでは、あなたの状況を見てみましょう。

あなたの robots.txt は次のように表示されています

User-agent: *
Disallow: /

したがって、すべての検索エンジンのクローラーを拒否するように設定されています。

しかし、これだけでは十分ではありません。robots.txt は礼儀に基づいていますが、「悪意のある」ロボットには尊重されません。悪意のあるロボットは robots.txt を無視することを選択できます。これは「立ち入り禁止！」の標識のようなもので、泥棒はそれを尊重しません。

あなたのフォーラムの主なセキュリティは、ログイン必須が有効になっているという事実に依存しています。これで、どのクローラーも締め出すのに十分です。

クローラーが侵入できないことはすでに確認しましたが、さらに一歩進めるのが良いかもしれません。

また、招待制と新規登録を許可が有効になっており、招待を許可するグループはTL2に設定されています。これは、任意の人がサインアップできるわけではありませんが、TL2以上のユーザーであれば他のユーザーをコミュニティに招待できることを意味します。セーフティネットとして、ユーザーの承認が必要を有効にしているので、それは良いことです。あなたのコミュニティにアクセスする唯一の方法は、すでにコミュニティの信頼できるメンバーである誰かから招待を受け、かつ管理者があなたを入れることです。

私たちによってホストされているフォーラムに関するサポートの質問については、support@communiteq.com に連絡するか、コントロールパネルの「サポート」オプションを使用してください。

トピック		返信	表示
How to protect myself from bots crawling my Discourse instance? Support	6	1613	2022 年 1 月 17 日
Controlling Web Crawlers For a Site Site Management how-to	10	2462	2025 年 7 月 19 日
Smarter handling of random crawler traffic Feature	2	3537	2018 年 3 月 29 日
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4549	2023 年 12 月 2 日
How to allow user-agent access to private discourse? Support	10	2053	2018 年 11 月 25 日

クローラーは何を見ることができますか？

関連トピック