匿名ページビューが大幅に増加した理由をどうすれば特定できますか

件名:

さて、2022年2月15日から16日にかけて、セルフホスト型のDigitalOcean Discourseインスタンスで奇妙なことに気づきました。下の画像に示すように、1日あたりの匿名ユーザー数が1日あたり約1,000人から平均10,000人に急増しました。その原因を理解しようとしましたが、うまくいきませんでした。

コンテンツの表示回数や、Google Search ConsoleやGoogle Analyticsの統計情報とも一致しません。ログも確認しましたが、特に何もありませんでした。

この原因について何か考えがある方はいらっしゃいますか?

私たちのコミュニティ:https://community.world-like-home.com/

どうぞよろしくお願いいたします。

「いいね!」 1

あなたのサイトに特化した方法で答えるのは、不可能に近い、あるいは難しいでしょう。しかし、原因を突き止めるためにできることは、ダッシュボードのクローラーレポートを見て、クローラーが原因かどうかを確認することです。

また、トピックのタイトルをより分かりやすく編集しました :wink:

「いいね!」 2

ボットがたくさん来ています。

「いいね!」 2

@osioke ありがとうございます。

しかし、もしそれがクローラーだった場合、Discourse がそれを明示的にクローラーとして表示してくれることを期待していました。何か見落としていることはありますか?

@Jagster Discourse はボットを匿名ユーザーとしてカウントすることは可能でしょうか?

「いいね!」 2

リクエストを行っているエンティティは、「通常の」ユーザーまたはボットとして自身を識別するものです。これは名誉に基づくシステムであり、それに伴う長所と短所があります。

ボットエコシステムにおけるほとんどの悪意のあるアクターは、自身をそのように識別せず、「通常の」ユーザーになりすましてリクエストを発行するため、Discourseができることはほとんどありません。

コマンドラインに慣れている場合は、サーバーにログインして、次のコマンドを使用してほとんどのリクエストがどこから来ているかを追跡できます。

cd /var/discourse/shared/standalone/log/var-log/nginx/
grep " 200 " access.log | awk '{print $4}' | sort | uniq -c | sort -r
「いいね!」 4

ボットが自身をユーザーとして識別する必要は何もありません。ユーザーエージェントの変更は非常に簡単なことで、ブラウザでも可能です。Discourseは、周知のUAを使用しているボットしか認識しません :wink:

もちろん、トラフィックの多いサイトであなたへのリンクがどこかにある場合、それらは実際のユーザーである可能性もあります。

「いいね!」 4

PDFがどこかにリンクされていて、多くの人が直接ダウンロードしているということでしょうか?そのPDFは悪意のある人物によってアップロードされたもので、何らかの理由で多くのトラフィックが発生しているのでしょうか?

「いいね!」 2

@pfaffmanさん、ありがとうございます。PDFに問題はなく、自分でアップロードしたものです。Discourseが表示している何千もの匿名ユーザーとの相関関係がないことを示すために、その画像を見せていただけです。

わかりました、ありがとうございます。

@Falcoさん、ありがとうございます。
提供していただいたコマンドラインは、急増の原因となっているIPを追跡するのに役立ちました。現時点では、クローラーをブロックするかどうかを決定する前に、引き続き観察を続けます。

「いいね!」 4

ちなみに、私の場合は、アクセスの大部分がメッセージバスのエンドポイントへのPOSTです。つまり、おそらくユーザーのブラウザからです。1つのケースでは1分ごと、別のケースではそれよりもはるかに頻繁です。

"POST /message-bus/<hash>/poll?dlp=t HTTP/1.1"
「いいね!」 1

それらは確かにほとんどのDiscourseサイトのリクエストですが、ページビューとしてはカウントされないため、ダッシュボードの「統合ページビュー」グラフには反映されません。そのため、これは少しトピックから外れています。

「いいね!」 1

もっともな点です。パイプに grep -v POST を追加してみてはいかがでしょうか?

「いいね!」 1