Amazonbot の不正なクローリング

こんにちは、ユーザーエージェントが以下のボットによる過剰なクローリングを報告したかったのです。

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

これは Amazon のボット のようですが、発信元 IP アドレスを確認して裏付けることができませんでした。

過去 5 日間の状況は以下の通りです:

比較のため、過去 2 日間のユーザーエージェント表を示します。39649 対 457 です。

私個人としては、ホスティングを行っているわけでもなく、パフォーマンス上の問題も感じていないため、あまり気にしていませんが、CDCK は懸念しているようです。そこで、ここで共有すると面白いかもしれないと思い、投稿しました。

@dax、これを再確認してもいいですか?

当社のサイトおよびコンテナのログによると、その日のみ、かつそのサイトのみで急増が見られました。

5月1日:

クライアント IP Amazonbot\*
107.23.182.118 3,560
54.90.49.0 3,210
35.175.129.27 3,204
3.80.18.217 2,646
35.153.79.214 2,529
34.201.164.175 2,432
107.21.55.67 1,959
34.204.61.165 1,538
18.208.120.81 1,473
100.25.191.160 1,276

\* Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

なるほど、確認ありがとうございます。おそらく技術系のユーザーが、イライラして当サイトを狙うゴミのようなボットを作ったのでしょうが、効果はなかったようです。その後、そのクローラーをブロックしました。

私も同様の経験をしたばかりなので…

Alexaが私のサイトコンテンツを使用して質問に回答できることは非常に嬉しいので、ブロックしたくはありません。しかし、AmazonBotからの3日間の大量トラフィック(他のすべてのボットの合計や、他のすべてのサイトトラフィックと比較して)をちょうど目にしました。Amazonは次のように述べています。

AmazonBot は robots.txt の crawl-delay ディレクティブをサポートしていません。

したがって、ユーザーにとってサイトのパフォーマンスに過大な影響を与えないように、Amazonbotslow_down_crawler_user_agents に追加するのが賢明だと思われます。

本来クローラーがサポートすべきですが、この場合はそうではない機能(Discourseの皆さん)を実装していただき、ありがとうございます。:heart: