Amazonbot crawling abusivo

Ciao, volevo segnalare una scansione aggressiva da parte del bot con il user agent

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Sembra essere un bot di Amazon, ma non sono riuscito a verificare gli indirizzi IP di origine per confermarlo.

Ecco com’è stato l’andamento negli ultimi 5 giorni:

A titolo di confronto, ecco la nostra tabella dei user agent degli ultimi due giorni: 39649 contro 457.

Personalmente non mi preoccupa molto, dato che non siamo noi a gestire l’hosting e non abbiamo notato problemi di prestazioni, ma CDCK sì. Quindi ho pensato che potesse essere interessante condividerlo qui.

Possiamo ricontrollare questo, @dax?

Dai log del nostro sito e del contenitore sembra che si sia verificato un picco solo in quel giorno specifico e solo su quel sito.

1° maggio:

Indirizzo IP del client Amazonbot*
107.23.182.118 3.560
54.90.49.0 3.210
35.175.129.27 3.204
3.80.18.217 2.646
35.153.79.214 2.529
34.201.164.175 2.432
107.21.55.67 1.959
34.204.61.165 1.538
18.208.120.81 1.473
100.25.191.160 1.276

* Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Capisco. Grazie per averlo verificato. Probabilmente si tratta di un utente tecnico, che ha avuto una giornata difficile e ha creato un bot inutile per prendere di mira il nostro sito senza alcun effetto. Da allora abbiamo bloccato quel crawler.

Dato che sono stato appena colpito da qualcosa di simile…

Sono molto felice che Alexa possa utilizzare i contenuti del mio sito per rispondere alle domande, quindi non voglio davvero bloccarla. Tuttavia, ho appena visto un picco di tre giorni di traffico intenso da AmazonBot (rispetto a tutto il resto dell’utilizzo del sito, inclusi tutti gli altri bot combinati, nonché tutto il resto del traffico del sito in generale), e vedo che Amazon dice:

AmazonBot non supporta la direttiva crawl-delay in robots.txt

Sembra quindi prudente aggiungere Amazonbot a slow_down_crawler_user_agents in modo che non abbiano un impatto sproporzionato sulle prestazioni del sito per gli utenti.

Grazie, gente di Discourse, per aver implementato una funzionalità che i crawler dovrebbero avere, ma in questo caso non hanno. :heart: