sam
(Sam Saffron)
1
最近、@neil によって クローラーのトラフィック分析 のビルトインサポートと、クローラーのユーザーエージェントのブロックリスト/ホワイトリスト機能の追加が行われました。
すぐに明らかになったのは、Bing が複数のサイトにわたって一貫して、他のどのクローラーよりもはるかに多い負荷を生成しているという点です。
例えば、Meta サイトでは過去 1 週間ほどのデータは以下の通りです:
| User Agent |
Pageviews |
| Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) |
183236 |
| Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
16117 |
| Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) |
15959 |
| Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) |
9450 |
| Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) |
5022 |
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) |
4498 |
| Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) |
3976 |
Bing は、他のどのクローラーよりも10 倍以上の頻度で Meta をクロールしています。より詳細なログを確認すると、この傾向は非常に明確です(また、クロスチェックも実施済みです):
ジオマップを見ると、このトラフィックは Microsoft 由来である可能性が非常に高いことがわかります。
特定の IP アドレスを調査したところ、リバース IP 検索により、これが実際に Microsoft 由来であることが確認できました。
Bing は 3 時間の間に Meta を 5000 回以上アクセスすることに全く躊躇しませんが、Google は 800 回を超えるスパイクを起こすことはなく、通常ははるかに低速で動作します。
このコミット以降、Bing はデフォルトで 1 リクエストあたり 60 秒にスロットリング(制限)されるようになりました:
slow_down_crawler_user_agents を編集することでこの制限を解除することは可能ですが、クローラーのトラフィックに関する影響を理解していない限り、推奨いたしません。
この措置は、Microsoft のクローラーによる攻撃から Discourse サイトを保護するために講じられました。なぜ Bing がこれほどひどい挙動をするのか理由は不明ですが、私の仮説では、その一因として、Bing が常に canonical リンク(正規リンク)の再検証を試みていることが挙げられます。ログを見ると、週に 3 回、投稿リンクの正規ページが何かを特定しようとする試みが見られます。例えば:
https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 の正規ページが https://meta.discourse.org/t/topic-stopwatch-theme-component/83939 であることを Bing に伝えても、Bing はそれを「信頼」せず、週に 3 回確認し直さなければならないようです。
私たちはこの件について Microsoft と連絡を取り、彼らは自らの側で対応を進めていますが、解決には数ヶ月、場合によっては数年かかる見込みです。そのため、当面の間、全ユーザーの保護のためにこの措置は不可欠です。
「いいね!」 43
状況について(ほぼ2年ぶりに)更新情報を提供していただけますか?
「いいね!」 1
sam
(Sam Saffron)
4
アップデートの内容は、私たちが大きな騒ぎを起こしたところ、彼らは変更を約束しましたが、それ以来連絡がありませんでした。
ここで他にできることがあるかどうかわかりません。なぜなら、低速コマンドには対応しているようなので、問題解決したと考えられます。
それでも、Bing のクロール手法にはあまり信頼を置いていません。
「いいね!」 8
Microsoftが「新しい」Bingを導入する可能性があります(あるいは、このブログ投稿を誤って読んでいるだけかもしれません)。何か意味があるのでしょうか?
「いいね!」 1
その投稿には、Bing が公開サイトをクロールする方法に関連する具体的な変更点は記載されていません。おそらくそうではないでしょう。
「いいね!」 7
Bing チームは最近、エンジニアリングチーム向けの新しい Twitter アカウントを作成しました。そこで私はこの機会を活用し、Discourse が Bing との間で抱えている問題について彼らに伝えました。Bing チームの 2 人の関係者の関心を引くことができましたが、Discourse に精通した方々のさらなるサポートが必要です。私は専門家ではありません。
https://twitter.com/CoperniX/status/1300511151743066112?s=20
https://twitter.com/CoperniX/status/1300508479447130112?s=20
「いいね!」 1
facan
(Fabrice Canel)
8
Justin さん、ご連絡ありがとうございます。私は Bing のクロールとインデックス作成チームを担当する Bing プログラムマネージャーです。当社のクローラーが貴社のコンテンツ管理システム(CMS)で過剰にクロールされている様子が伺えるのは残念です。ご指摘の通り、以前は問題があり調整を行いました。しかし、今回のフィードバックからは、さらに調整が必要であることが示されています。貴社の CMS を活用した Web サイトのクロール対象を調査した際、CMS の仕組みについては貴社の方が当社よりも詳しくご存じですので、ログの具体例を共有いただき、一緒に詳細な分析を行っていただければ幸いです。
実際には、貴社の Web サイトでの変更内容を把握しているのは貴社の方です。そのため、現在、Web サイトやコンテンツ管理システムに対して、Bing の URL 送信 API(Bing Webmaster Tools 向けのオープンソースコードも公開しています(Bing URL Submissions Plugin – WordPress plugin | WordPress.org
「いいね!」 8
これは必ずしも Discourse のみに限ったことではありません。Bing はデフォルトで非常に攻撃的に Web サイトをクロールします @facan
「いいね!」 1
Discourse チームは私よりもはるかに詳しいです。私は単にこの問題について皆様にご注意を喚起したく、主に Discourse チームがこれを引き継いでくれることを願っています。
「いいね!」 1
riking
(Kane York)
12
ここには明確なテストケースがあります:
これを開発者に伝えて、問題の行動の原因を特定できるか確認してもらえませんか?
「いいね!」 5
facan
(Fabrice Canel)
13
こんにちは、サムさん。
Bing クローリングチームを統括するプログラムマネージャーのファブリスです。以下の 2 つの URL について、IP アドレスをお知らせいただけますでしょうか。
Topic Stopwatch…
当社のログによると、過去 2 週間、これらの URL は一度も取得されていませんでした。
よろしくお願いいたします。
ファブリス
「いいね!」 1
sam
(Sam Saffron)
14
それは非常に古い情報です。bingbot には、デフォルトの Discourse インスタンスすべてでクロール遅延が設定されています。
配慮から、14 日間 meta からこれを削除し、実際に動作が改善されているかどうかを確認します。
「いいね!」 12
気になったのでお伺いしますが、こちらにステータスの更新はありますか?
「いいね!」 1
sam
(Sam Saffron)
20
まだ調査中ですが、結果は数週間以内に発表される予定です。
「いいね!」 7
sam
(Sam Saffron)
25
Fabrice さん、いくつかのサイトでテストしたところ、クロール動作がはるかに適切になっているようです。
これがマージされた後、デフォルトのスロットリングは削除されます。
「いいね!」 12
私のサイトでは既にスロットリングを無効にしていました。これがすべての Discourse フォーラムに手動での介入なしで適用されるようになるのは嬉しいです!
「いいね!」 1
Frédéric
(Frédéric Dubut)
27
新しく参加しましたが、私の同僚と私も、bingbot がこのサイトを正しくインデックスしていることを聞いて嬉しく思います。問題が解決した今、このスレッドをロックするのが最も適切でしょう。すでに解決済みの事柄に対して、さらに返信を許可するのは意味がありません。
「いいね!」 7