Amazonbot missbräuchliches Crawling

Hi there, I wanted to report some aggressive crawling by the bot with the user agent

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

It seems to be a bot by amazon but I couldn’t check the originating IP addresses to confirm that.

This is what the last 5 days look like:
crawler3

For comparison, this our user agents table for the last two days. 39649 vs 457

I personally don’t care too much about this as we’re not the ones doing the hosting and we haven’t noticed performance issues but CDCK is. So I figured this could be interesting to share here.

3 „Gefällt mir“

Can we double check this @dax?

2 „Gefällt mir“

From our site and container logs it appears that there was a spike only that particular day and only on that site

May 1st:

Client IP Amazonbot*
107.23.182.118 3,560
54.90.49.0 3,210
35.175.129.27 3,204
3.80.18.217 2,646
35.153.79.214 2,529
34.201.164.175 2,432
107.21.55.67 1,959
34.204.61.165 1,538
18.208.120.81 1,473
100.25.191.160 1,276

* Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

2 „Gefällt mir“

I see. Thanks for checking it. Probably a technical user, having a bad day and making a trashy bot to target our website with no effect. We’ve since blocked that crawler.

1 „Gefällt mir“

Da ich selbst gerade etwas Ähnliches erlebt habe…

Ich freue mich sehr, dass Alexa meine Website-Inhalte nutzen kann, um Fragen zu beantworten, daher möchte ich sie nicht wirklich blockieren. Ich habe jedoch gerade einen dreitägigen Anstieg des Datenverkehrs von AmazonBot festgestellt (im Verhältnis zu allen anderen Website-Nutzungen, einschließlich aller anderen Bots zusammen, sowie dem gesamten anderen Website-Datenverkehr), und ich sehe, dass Amazon sagt:

AmazonBot unterstützt die Direktive crawl-delay in robots.txt nicht

Es scheint daher ratsam zu sein, Amazonbot zu slow_down_crawler_user_agents hinzuzufügen, damit sie keine übermäßigen Auswirkungen auf die Website-Leistung für Benutzer haben.

Danke, Discourse-Leute, für die Implementierung von Funktionalität, die Crawler haben sollten, aber in diesem Fall nicht haben. :heart:

2 „Gefällt mir“