サイトのWebクローラーを制御する

:bookmark: このガイドでは、Discourseサイトでのウェブクローラーの管理方法を説明します。

:person_raising_hand: 必要なユーザーレベル:管理者

ウェブクローラーは、ページビューとサーバー負荷を増加させることにより、サイトのパフォーマンスに大きな影響を与える可能性があります。

サイトでページビューの急増に気付いた場合、ウェブクローラーがその中にどのように関わっているかを確認することが重要です。


クローラーの活動の確認

クローラーがサイトに影響を与えていないかを確認するには、管理ダッシュボードからサイトトラフィックレポート (/admin/reports/site_traffic ) に移動します。このレポートは、ログインしているブラウザユーザー、匿名ブラウザユーザー、クローラー、その他のソースからのページビューの内訳を示します。

クローラーが正常に機能しているサイト:

クローラーが制御不能なサイト:

特定のクローラーの識別

ウェブクローラーユーザーエージェントレポート (/admin/reports/web_crawlers ) に移動すると、ページビュー数でソートされたウェブクローラー名のリストが表示されます。

問題のあるウェブクローラーがサイトにヒットした場合、そのページビュー数は他のウェブクローラーよりもはるかに多くなります。同時に動作している悪意のあるウェブクローラーが多数存在する可能性があることに注意してください。

クローラーのブロックと制限

国に基づいて、GoogleBingBaidu(中国)、Yandex(ロシア)、Naver(韓国)、DuckDuckGoYahooなどの主要な検索エンジンのクローラーをブロックしないのは良い習慣です。

ウェブクローラーが制御不能な場合、同じクローラーが他のサイトにもヒットしており、誰かがすでに情報のリクエストを行ったか、その特定のクローラーを制限またはブロックするかを理解するのに役立つレポートを作成している可能性が高いです。

サードパーティのサービスを使用してサイトを監視したり、スクリプトなどを介して機能を追加したりする場合、一部のクローラーが大量のページビューを発生させる可能性があることに注意してください。

信頼できないウェブクローラーの記録を取得するには、次のリストを参照できます。\u003chttps://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt\u003e

クローラー設定の調整

管理者 > 設定の下には、特定のクローラーのレート制限に役立つ設定がいくつかあります。

  • クローラーの速度を落とすには、以下を使用します。

    • slow down crawler user agents — デフォルトでは、gptbotclaudebotanthropic-aibrightbotが含まれます
    • slow down crawler rate — クローラーごとの許可されたリクエスト間の秒数(デフォルト:60)
  • クローラーをブロックするには、以下を使用します。

    • blocked crawler user agents — デフォルトでは、mauibotsemrushbotahrefsbotblexbotseo spiderが含まれます
  • 特定のクローラーのみを許可するには、以下を使用します。

    • allowed crawler user agents — 設定すると、リストされたクローラーのみがサイトへのアクセスを許可され、その他はすべてブロックされます。これは厳格な許可リストとして機能します。警告: これを設定すると、blocked crawler user agents は上書きされ、主要な検索エンジンであってもリストにないすべてのクローラーがブロックされます。

制御したいクローラーの正確なユーザーエージェント名がわかっていることを確認してください。上記の設定を調整してもそのエージェントのページビューの減少が見られない場合は、正しい名前を使用しているかどうかを再確認することを検討してください。

どう行動すべきか迷った場合は、完全にブロックするのではなく、必ず「速度を落とす」オプションから始めてください。時間とともに改善が見られるか確認します。顕著な結果が見られない場合は、完全なブロックに進むことができます。

「いいね!」 17