Amazonbot rastreamento abusivo

Olá, gostaria de relatar uma varredura agressiva por parte do bot com o user agent:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Parece ser um bot da Amazon, mas não consegui verificar os endereços IP de origem para confirmar.

É assim que foram os últimos 5 dias:

Para comparação, esta é a nossa tabela de user agents dos últimos dois dias: 39649 contra 457.

Pessoalmente, não me importo muito com isso, pois não somos nós que fazemos o hospedagem e não notamos problemas de desempenho, mas a CDCK sim. Por isso, achei que seria interessante compartilhar isso aqui.

Podemos verificar isso novamente, @dax?

A partir dos logs do nosso site e do contêiner, parece que houve um pico apenas naquele dia específico e apenas naquele site.

1º de maio:

IP do Cliente Amazonbot*
107.23.182.118 3.560
54.90.49.0 3.210
35.175.129.27 3.204
3.80.18.217 2.646
35.153.79.214 2.529
34.201.164.175 2.432
107.21.55.67 1.959
34.204.61.165 1.538
18.208.120.81 1.473
100.25.191.160 1.276

* Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Entendi. Obrigado por verificar. Provavelmente é um usuário técnico, tendo um dia ruim e criando um bot ruim para atacar nosso site sem nenhum efeito. Desde então, bloqueamos esse rastreador.

Como eu mesmo fui atingido por algo assim…

Fico muito feliz que a Alexa possa usar o conteúdo do meu site para responder perguntas, então eu realmente não quero bloqueá-la. No entanto, acabei de ver um pico de três dias de tráfego intenso do AmazonBot (em relação a todo o outro uso do site, incluindo todos os outros bots combinados, bem como todo o outro tráfego do site em geral), e vejo que a Amazon diz:

O AmazonBot não suporta a diretiva crawl-delay no robots.txt

Portanto, parece prudente adicionar Amazonbot a slow_down_crawler_user_agents para que eles não tenham um impacto desproporcional no desempenho do site para os usuários.

Obrigado, pessoal do Discourse, por implementar funcionalidades que os rastreadores deveriam ter, mas neste caso não têm. :heart: