正体不明のクローラーによるページビューの急増

皆さん、こんにちは!

クローラーのページビュー数を確認すると、1 ヶ月で 50 万回以上のページビューを記録している正体不明のエントリがあるようです:

これが何かを特定する簡単な方法はありませんか?1 日あたり約 1 万〜1 万 5000 回以上のヒットがあるようです。

もし当社のホスティングメールサポートをご利用中であれば、こちらで対応いたします。

私たちは自己ホスト型の FLOSS プロジェクトですので、それは難しいかもしれません :slight_smile:

もう少しフィルタリングを追加したり、インフラ担当者にログを詳しく確認させたりすることはできますが、他の誰かが以前にこの問題を見たことがあるかどうかが気になっていたのです。

そのユーザーエージェントと対応する IP で送信されたリクエストについて、nginx ログ(access.log)を確認してください。

ついさっき、リードのシステム管理者と直接会って解決策を見つけました。HAProxy が 5 秒ごとにヘルスチェックを行っていることが原因でした😂

ヘルスチェックでは適切な User Agent を設定して、この問題が再発しないようにしてください。また、ヘルスチェックには /srv/status ルートを使用することもできます。

「ああ、できるはずだけど……俺は面倒くさがり屋だからな」- システム管理者

できる限り対応してみます。ありがとう!