Абьюзивный парсинг Amazonbot

Привет! Я хотел бы сообщить о агрессивном сканировании со стороны бота с пользовательским агентом:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Похоже, это бот от Amazon, но я не смог проверить исходные IP-адреса для подтверждения.

Вот как выглядели последние 5 дней:

Для сравнения, вот наша таблица пользовательских агентов за последние два дня: 39649 против 457.

Лично меня это не сильно беспокоит, так как хостингом занимаемся не мы, и проблем с производительностью мы не заметили, но CDCK столкнулся с ними. Поэтому решил поделиться этой информацией здесь.

Можно перепроверить это, @dax?

Судя по нашим логам сайта и контейнеров, всплеск наблюдался только в этот день и только на этом сайте.

1 мая:

IP-адрес клиента Amazonbot*
107.23.182.118 3 560
54.90.49.0 3 210
35.175.129.27 3 204
3.80.18.217 2 646
35.153.79.214 2 529
34.201.164.175 2 432
107.21.55.67 1 959
34.204.61.165 1 538
18.208.120.81 1 473
100.25.191.160 1 276

* Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Понятно. Спасибо, что проверили. Скорее всего, это технический специалист, у которого был плохой день, и он создал бота низкого качества, чтобы атаковать наш сайт, но безрезультатно. Мы уже заблокировали этого сканера.

Поскольку я сам недавно столкнулся с чем-то подобным…

Я очень рад, что Alexa может использовать контент моего сайта для ответов на вопросы, поэтому я не хочу её блокировать. Однако я заметил всплеск трёхдневного интенсивного трафика от AmazonBot (по сравнению со всем остальным использованием сайта, включая всех остальных ботов вместе взятых, а также весь остальной трафик сайта в целом). При этом Amazon указывает:

AmazonBot не поддерживает директиву crawl-delay в файле robots.txt

Поэтому, по-видимому, разумно добавить Amazonbot в список slow_down_crawler_user_agents, чтобы они не оказывали чрезмерного влияния на производительность сайта для пользователей.

Спасибо, ребята из Discourse, за реализацию функциональности, которую должны поддерживать краулеры, но в данном случае не поддерживают. :heart: