このガイドでは、Discourseサイトでのウェブクローラーの管理方法について説明します。
必要なユーザーレベル:管理者
ウェブクローラーは、ページビュー数とサーバー負荷を増加させることで、サイトのパフォーマンスに大きな影響を与える可能性があります。
サイトでページビュー数の急増に気づいた場合、ウェブクローラーがどのように影響しているかを確認することが重要です。
クローラーのアクティビティを確認する
クローラーがサイトに影響を与えているかどうかを確認するには、管理者ダッシュボードから統合ページビューレポート(/admin/reports/consolidated_page_views)に移動します。このレポートは、ログインユーザー、匿名ユーザー、クローラーからのページビュー数を内訳表示します。
クローラーが正常に機能しているサイト:
クローラーが制御不能なサイト:
特定のクローラーを特定する
ウェブクローラーユーザーエージェントレポート(/admin/reports/web_crawlers)に移動すると、ページビュー数でソートされたウェブクローラー名のリストが表示されます。
問題のあるウェブクローラーがサイトにアクセスすると、そのページビュー数は他のウェブクローラーよりもはるかに高くなります。同時に、多数の悪意のあるウェブクローラーが動作している可能性があることに注意してください。
クローラーのブロックと制限
Google、Bing、Baidu(中国)、Yandex(ロシア)、Naver(韓国)、DuckDuckGo、Yahooなどの主要な検索エンジンのクローラーを、お住まいの国に基づいてブロックしないことは良い習慣です。
ウェブクローラーが制御不能になった場合、同じクローラーが他のサイトにもアクセスしており、誰かがすでにそれに関する情報を提供したり、レポートを作成したりしている可能性が高いです。これは、その特定のクローラーを制限またはブロックするかどうかを理解するのに役立ちます。
サードパーティのサービスを使用してサイトを監視したり、スクリプトなどを介してサイトに機能を追加したりする場合、一部のクローラーが大量のページビューに寄与する可能性があることに注意してください。
信頼できないウェブクローラーの記録を取得するには、このリストを参照してください:https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
クローラー設定の調整
管理者 > 設定の下には、特定のクローラーのレート制限に役立つ設定がいくつかあります。
-
クローラーの速度を落とす:
slow down crawler user agentsslow down crawler rate
-
クローラーをブロックする:
blocked crawler user agents
制御したいクローラーの正確なユーザーエージェント名を知っていることを確認してください。上記の設定を調整しても、そのエージェントのページビュー数の減少が見られない場合は、正しい名前を使用しているかどうかを再確認してください。
どうすればよいかわからない場合は、常に完全なブロックではなく、「速度を落とす」オプションから始めてください。時間とともに改善が見られるか確認してください。顕著な結果が見られない場合は、完全なブロックに進むことができます。


