Hallo, ich wollte eine aggressive Crawler-Aktivität des Bots mit folgendem User-Agent melden:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Es scheint sich um einen Bot von Amazon zu handeln, aber ich konnte die ursprünglichen IP-Adressen nicht überprüfen, um dies zu bestätigen.
Persönlich stört mich das nicht besonders, da wir nicht die Hoster sind und wir keine Leistungsprobleme bemerkt haben, aber CDCK schon. Daher dachte ich, es könnte interessant sein, dies hier zu teilen.
Laut unseren Server- und Container-Logs scheint es an diesem einen Tag nur auf dieser einen Website zu einem Spitzenwert gekommen zu sein.
Mai:
Client-IP
Amazonbot*
107.23.182.118
3.560
54.90.49.0
3.210
35.175.129.27
3.204
3.80.18.217
2.646
35.153.79.214
2.529
34.201.164.175
2.432
107.21.55.67
1.959
34.204.61.165
1.538
18.208.120.81
1.473
100.25.191.160
1.276
* Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Ich verstehe. Danke, dass du es geprüft hast. Wahrscheinlich ein technischer Nutzer, der einen schlechten Tag hatte und einen minderwertigen Bot erstellt hat, um unsere Website ohne Erfolg anzugreifen. Wir haben diesen Crawler inzwischen blockiert.
Ich freue mich sehr, dass Alexa meine Website-Inhalte nutzen kann, um Fragen zu beantworten, daher möchte ich sie nicht wirklich blockieren. Ich habe jedoch gerade einen dreitägigen Anstieg des Datenverkehrs von AmazonBot festgestellt (im Verhältnis zu allen anderen Website-Nutzungen, einschließlich aller anderen Bots zusammen, sowie dem gesamten anderen Website-Datenverkehr), und ich sehe, dass Amazon sagt:
AmazonBot unterstützt die Direktive crawl-delay in robots.txt nicht
Es scheint daher ratsam zu sein, Amazonbot zu slow_down_crawler_user_agents hinzuzufügen, damit sie keine übermäßigen Auswirkungen auf die Website-Leistung für Benutzer haben.
Danke, Discourse-Leute, für die Implementierung von Funktionalität, die Crawler haben sollten, aber in diesem Fall nicht haben.