サイトのクローラー制御

:bookmark: このガイドでは、Discourseサイトでのウェブクローラーの管理方法について説明します。

:person_raising_hand: 必要なユーザーレベル:管理者

ウェブクローラーは、ページビュー数とサーバー負荷を増加させることで、サイトのパフォーマンスに大きな影響を与える可能性があります。

サイトでページビュー数の急増に気づいた場合、ウェブクローラーがどのように影響しているかを確認することが重要です。


クローラーのアクティビティを確認する

クローラーがサイトに影響を与えているかどうかを確認するには、管理者ダッシュボードから統合ページビューレポート(/admin/reports/consolidated_page_views)に移動します。このレポートは、ログインユーザー、匿名ユーザー、クローラーからのページビュー数を内訳表示します。

クローラーが正常に機能しているサイト:

クローラーが制御不能なサイト:

特定のクローラーを特定する

ウェブクローラーユーザーエージェントレポート(/admin/reports/web_crawlers)に移動すると、ページビュー数でソートされたウェブクローラー名のリストが表示されます。

問題のあるウェブクローラーがサイトにアクセスすると、そのページビュー数は他のウェブクローラーよりもはるかに高くなります。同時に、多数の悪意のあるウェブクローラーが動作している可能性があることに注意してください。

クローラーのブロックと制限

Google、Bing、Baidu(中国)、Yandex(ロシア)、Naver(韓国)、DuckDuckGo、Yahooなどの主要な検索エンジンのクローラーを、お住まいの国に基づいてブロックしないことは良い習慣です。

ウェブクローラーが制御不能になった場合、同じクローラーが他のサイトにもアクセスしており、誰かがすでにそれに関する情報を提供したり、レポートを作成したりしている可能性が高いです。これは、その特定のクローラーを制限またはブロックするかどうかを理解するのに役立ちます。

サードパーティのサービスを使用してサイトを監視したり、スクリプトなどを介してサイトに機能を追加したりする場合、一部のクローラーが大量のページビューに寄与する可能性があることに注意してください。

信頼できないウェブクローラーの記録を取得するには、このリストを参照してください:https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt

クローラー設定の調整

管理者 > 設定の下には、特定のクローラーのレート制限に役立つ設定がいくつかあります。

  • クローラーの速度を落とす

    • slow down crawler user agents
    • slow down crawler rate
  • クローラーをブロックする

    • blocked crawler user agents

制御したいクローラーの正確なユーザーエージェント名を知っていることを確認してください。上記の設定を調整しても、そのエージェントのページビュー数の減少が見られない場合は、正しい名前を使用しているかどうかを再確認してください。

どうすればよいかわからない場合は、常に完全なブロックではなく、「速度を落とす」オプションから始めてください。時間とともに改善が見られるか確認してください。顕著な結果が見られない場合は、完全なブロックに進むことができます。

「いいね!」 17