Amazonbot exploration abusive

Hi there, I wanted to report some aggressive crawling by the bot with the user agent

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

It seems to be a bot by amazon but I couldn’t check the originating IP addresses to confirm that.

This is what the last 5 days look like:
crawler3

For comparison, this our user agents table for the last two days. 39649 vs 457

I personally don’t care too much about this as we’re not the ones doing the hosting and we haven’t noticed performance issues but CDCK is. So I figured this could be interesting to share here.

3 « J'aime »

Can we double check this @dax?

2 « J'aime »

From our site and container logs it appears that there was a spike only that particular day and only on that site

May 1st:

Client IP Amazonbot*
107.23.182.118 3,560
54.90.49.0 3,210
35.175.129.27 3,204
3.80.18.217 2,646
35.153.79.214 2,529
34.201.164.175 2,432
107.21.55.67 1,959
34.204.61.165 1,538
18.208.120.81 1,473
100.25.191.160 1,276

* Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

2 « J'aime »

I see. Thanks for checking it. Probably a technical user, having a bad day and making a trashy bot to target our website with no effect. We’ve since blocked that crawler.

1 « J'aime »

Puisque j’ai moi-même été victime de quelque chose de similaire…

Je suis très heureux qu’Alexa puisse utiliser le contenu de mon site pour répondre aux questions, donc je ne veux pas vraiment le bloquer. Cependant, je viens de constater une explosion de trois jours de trafic intense provenant d’AmazonBot (par rapport à toute autre utilisation du site, y compris tous les autres bots combinés, ainsi que tout le trafic global du site), et je vois qu’Amazon dit :

AmazonBot ne prend pas en charge la directive crawl-delay dans robots.txt

Il semble donc prudent d’ajouter Amazonbot à slow_down_crawler_user_agents afin qu’ils n’aient pas un impact disproportionné sur les performances du site pour les utilisateurs.

Merci, les gens de Discourse, d’avoir mis en œuvre une fonctionnalité que les robots d’exploration devraient avoir, mais qu’ils n’ont pas dans ce cas. :heart:

2 « J'aime »