Amazonbot rastreo abusivo

Hola, quería reportar un rastreo agresivo por parte del bot con el user agent:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Parece ser un bot de Amazon, pero no pude verificar las direcciones IP de origen para confirmarlo.

Así es como se han visto los últimos 5 días:

Para comparar, esta es nuestra tabla de user agents de los últimos dos días: 39649 vs 457.

Personalmente, no me preocupa demasiado, ya que no somos nosotros quienes hacemos el hosting y no hemos notado problemas de rendimiento, pero a CDCK sí le afecta. Así que pensé que podría ser interesante compartirlo aquí.

¿Podemos verificar esto, @dax?

Desde nuestros registros del sitio y del contenedor, parece que hubo un pico solo ese día y únicamente en ese sitio.

1 de mayo:

IP del cliente Amazonbot*
107.23.182.118 3,560
54.90.49.0 3,210
35.175.129.27 3,204
3.80.18.217 2,646
35.153.79.214 2,529
34.201.164.175 2,432
107.21.55.67 1,959
34.204.61.165 1,538
18.208.120.81 1,473
100.25.191.160 1,276
  • Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Veo. Gracias por revisarlo. Probablemente se trate de un usuario técnico que ha tenido un mal día y ha creado un bot mediocre para atacar nuestro sitio web, sin lograr ningún efecto. Desde entonces, hemos bloqueado ese rastreador.

Dado que yo mismo acabo de ser afectado por algo así…

Estoy muy contento de que Alexa pueda usar el contenido de mi sitio para responder preguntas, así que realmente no quiero bloquearlo. Sin embargo, acabo de ver un pico de tres días de tráfico intenso de AmazonBot (en relación con todo el uso del sitio, incluidos todos los demás bots combinados, así como todo el tráfico general del sitio), y veo que Amazon dice:

AmazonBot no admite la directiva crawl-delay en robots.txt

Por lo tanto, parece prudente agregar Amazonbot a slow_down_crawler_user_agents para que no tengan un impacto desproporcionado en el rendimiento del sitio para los usuarios.

Gracias, gente de Discourse, por implementar una funcionalidad que los rastreadores deberían tener, pero que en este caso no tienen. :heart: