Bonjour, je voulais signaler un comportement de crawl agressif de la part du bot avec l’agent utilisateur :
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Il semble s’agir d’un bot d’Amazon, mais je n’ai pas pu vérifier les adresses IP d’origine pour le confirmer.
Voici à quoi ressemblent les cinq derniers jours :
Personnellement, cela ne me dérange pas trop car nous ne sommes pas responsables de l’hébergement et nous n’avons pas remarqué de problèmes de performance, mais CDCK, si. J’ai donc pensé que cela pourrait être intéressant à partager ici.
D’après nos journaux de site et de conteneur, il semble qu’il y ait eu un pic uniquement ce jour-là et uniquement sur ce site.
1er mai :
Adresse IP du client
Amazonbot*
107.23.182.118
3 560
54.90.49.0
3 210
35.175.129.27
3 204
3.80.18.217
2 646
35.153.79.214
2 529
34.201.164.175
2 432
107.21.55.67
1 959
34.204.61.165
1 538
18.208.120.81
1 473
100.25.191.160
1 276
* Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Je vois. Merci de l’avoir vérifié. Probablement un utilisateur technique ayant une mauvaise journée et créant un bot de mauvaise qualité pour cibler notre site web sans aucun effet. Nous avons depuis bloqué ce crawler.
Puisque j’ai moi-même été victime de quelque chose de similaire…
Je suis très heureux qu’Alexa puisse utiliser le contenu de mon site pour répondre aux questions, donc je ne veux pas vraiment le bloquer. Cependant, je viens de constater une explosion de trois jours de trafic intense provenant d’AmazonBot (par rapport à toute autre utilisation du site, y compris tous les autres bots combinés, ainsi que tout le trafic global du site), et je vois qu’Amazon dit :
AmazonBot ne prend pas en charge la directive crawl-delay dans robots.txt
Il semble donc prudent d’ajouter Amazonbot à slow_down_crawler_user_agents afin qu’ils n’aient pas un impact disproportionné sur les performances du site pour les utilisateurs.
Merci, les gens de Discourse, d’avoir mis en œuvre une fonctionnalité que les robots d’exploration devraient avoir, mais qu’ils n’ont pas dans ce cas.