MegaIndexボットが1日で約4,000ページビューを実行

FYI

サイトのページビューを監視している方へ。2022年7月2日、当サイトはボットMegaIndex.ruから約4,000ページビューを記録しました。これは明らかに目立っていました。

「いいね!」 7

それをブロックするか、遅くすることができます

「いいね!」 5

情報ありがとうございます。

質問ではなく、他の人が注意できるように指摘しました。これは、ヒットを時間内に分散させない新しいクローラーのようです。おそらく、私たちのサイトを初めて見たため、すべてのページをクロールしたのでしょう。しかし、このまま1日に大量のヒットが続くようであれば、さらに調査します。

「いいね!」 4

お知らせいただきありがとうございます。これらのひどく書かれたボット/ウェブインデクサー/ウェブスパイダーは、サーバーに大きな負荷をかける可能性があります!

「いいね!」 13

私もそれに気づきました。私のインスタンスで最も多くのページビューを記録しているのはボットで、その次にSeekport(1日で35,000ページビュー)とmj12botが続きます。それらのせいで時々DoS攻撃を受けています。Cloudflareのアンチボット機能は、あまり監視することなく、これらのボットのほとんどを制限するのに役立ちました。

「いいね!」 5

すべてのクローラーを遅くすることは可能ですか – robots.txt の crawl-delay を追加するのと同じ効果ですか?

「いいね!」 2

いいえ。robots.txt をまったく遵守しているボットはほとんどなく、遅延を順守しているものはさらに少ないです。

「いいね!」 2

それは残念です。Discourse にとっては良い機能になるでしょう。

興味本位ですが、既存のシステム(すべてのクローラーをブロックできるが、指定したリストにのみクロール遅延を追加できる)は、robots.txt の disallowcrawl-delay を介して機能しますか?

それは全く別の問題です。しかし、個人的には、別のサイトで crawl-delay が効果的だったことがあります。

「いいね!」 2

ホワイトハットボットのみ、かつ数がそれほど多くない場合に限られます。それ以外は、良いボットと悪いボットの比率はほぼ 1:100 で、robots.txt に何があってもなくても気にも留めません。最も優秀なボットは 、システム管理者/ウェブマスターがどこに表示されたくないかを見つけ出し、すぐにその指示に従います。

(本当に、 は HTML タグとして機能していますね :thinking: Discourse は IMO、それのために単に < > を使用すべきではありません)

SEO ボットは非常に振る舞いの悪いものです。しかし、大半はスクリプトキディによって偽装された偽のユーザーエージェントを伝えています。

多くのボットは完全に停止させることができますが、それはサーバー側で行うべきであり、アプリケーションレベルではありません。

「いいね!」 2

それはさておき、私の経験は異なり、Discourse には個々のクローラーを指定せずに crawl-delay を設定できるようにしてほしいです。

「いいね!」 2

クローラーの急増も発生しています。

どのクローラーがページビューを悪用しているか特定するにはどうすればよいですか?

「いいね!」 4

レポートページに組み込まれているレポートの1つです。

「いいね!」 3

見つけました。

ユーザーエージェント ページビュー
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) 5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) 872

したがって、これらのピークはMJ21botと、IPをnginxログで確認した正規のGoogleボットであるNexus 5X Buildからのものです。

なぜこのようなページビューが発生するのか、何か考えはありますか?MJ12botも正規のもののようです(少なくとも、Google検索ではそう言っています…)。フォーラムはオンラインですが、コンテンツを表示するにはログインが必要であることに注意してください。数日中に一般公開されます。

フォーラムでクローラーのピークが時々見られますが、1〜2日しか続かず、その後は長期間現れません。

例:

「いいね!」 3

IPを確認してください。それは最もよく使われる偽のものの1つでもあります。さらに、すべてのいわゆるSEOボットと同様に、あなたにとって完全に無用です。

「いいね!」 3

クローラーについてはほとんど何も知りません。Googleの公式クローラーはSEOにとって役立たないのでしょうか?トピックから外れていたらごめんなさい。

「いいね!」 3

私がトピックを開始したので、あなたの質問はトピックから外れているとは思いません。私の投稿はFYIであり、あなたは情報の詳細を理解しようとしているだけです。

私はSEOの専門家ではありませんが、検索エンジンであなたのサイトを見つけてほしいのであれば、検索エンジンクローラーがあなたのウェブサイトをクロールしてインデックスを構築・更新できるようにする必要があります。

問題は、一部のクローラーがユーザーをサイトに誘導しておらず、その場合、過剰なページヒットを避けたいのであれば、robots.txtを使用してクロールしないように依頼することになります。しかし、悪い検索エンジンはrobots.txtを無視するため、ファイアウォールルールなどを使用する必要があります。そうなると、ログインなしで開いているサイトにアクセスしたい人がいる場合、毎回IDが変わるためブロックするのが難しいという、古くからの問題になります。ログインが必要な場合は、サインアップする人の数が減ることがよくあります。

元の投稿に関して、報告された外れ値以降、MeagIndexまたは他のクローラーによる1日のページビューの大幅な増加は他に見ていません。

「いいね!」 2

更新:2022年8月13日

ボットは2022年8月4日(クローラーサイト)に当サイトを再度訪問しました。

レポート:統合ページビュー

レポート:ウェブクローラーのユーザーエージェント

レポート:トップトラフィックソース

明らかに、MegaIndex.ru/2.0ボットにサイトをインデックスさせることは、サイトへのトラフィックを生成していないようです。
注:私の知る限り、yandex.ruはMegaindex.ruとは異なります。


クローラーをブロックするには、robots.txtがありますが、指摘されているように

https://<Discoruseサイト>/admin/customize/robots

しかし、すべてのクローラーがrobots.txtを尊重するわけではありません。:slightly_frowning_face:


IAmGav上記で指摘したように、他のクローラー設定もあります。

「いいね!」 4

robots.txt はボットを停止するためのものではありません。これは、良い振る舞いをするボットのためのガイドラインです。それらはサーバーレベルで停止されるべきです。私の Discourse がリバースプロキシの後ろにある最大の理由の 1 つです。

「いいね!」 4

2022年12月22日に、私には未知の新しいボットである https://bot.seekport.com が、不釣り合いなほどのページビューを行いました。

「いいね!」 2

定期的なクローラーのアクティビティの急増はよくあることです。私たちはそれらを次のように分類しています。

  • 正規の検索エンジンによる定期的なクローラー
  • 新規/カスタム検索エンジンによる不定期なクローラー
  • 競合他社またはその他の「研究者」によるターゲットクローラー。彼らはあなたのクロールデータを効果的に自分の目的に使用する可能性があります。

私たちの経験に基づくと、あなたの情報が何らかの目的で使用されることを望まない場合や、それによる深刻なサーバー負荷を経験しない限り、クロールされることから身を守る必要はありません。結局のところ、あなたのフォーラム/プロジェクトが公開されている場合、公開データをどのような目的でも収集する方法は常に存在します :slight_smile:

「いいね!」 3