Amazonbot 滥用爬行

大家好,我想报告一下某个用户代理为以下内容的机器人进行的激进抓取行为:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

这似乎是 亚马逊的一个机器人,但我无法通过检查来源 IP 地址来确认这一点。

以下是过去 5 天的情况:

作为对比,这是我们过去两天的用户代理统计表:39649 对比 457。

我个人对此不太在意,因为我们并非托管服务提供商,也未注意到性能问题,但 CDCK 团队遇到了困扰。因此,我觉得在此分享这一情况或许会有所帮助。

@dax,我们可以再确认一下吗?

从我们的网站和容器日志来看,似乎仅在当天、仅在该站点出现了流量激增。

5 月 1 日:

客户端 IP Amazonbot*
107.23.182.118 3,560
54.90.49.0 3,210
35.175.129.27 3,204
3.80.18.217 2,646
35.153.79.214 2,529
34.201.164.175 2,432
107.21.55.67 1,959
34.204.61.165 1,538
18.208.120.81 1,473
100.25.191.160 1,276
  • Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

明白了,感谢核查。这很可能是一位技术用户,当天状态不佳,编写了一个低劣的机器人来攻击我们的网站,但并未产生任何效果。我们随后已屏蔽了该爬虫。

既然我自己也刚遇到类似的事情……

我很高兴 Alexa 能够使用我的网站内容来回答问题,所以我并不想阻止它。但是,我刚刚看到来自 AmazonBot 的三天大量流量(相对于所有其他网站使用情况,包括所有其他机器人以及所有其他网站整体流量),并且我看到亚马逊说:

AmazonBot 不支持 robots.txt 中的 crawl-delay 指令

因此,将 Amazonbot 添加到 slow_down_crawler_user_agents 中似乎是明智的,这样它们就不会对用户网站性能产生过大的影响。

感谢 Discourse 的各位,实现了爬虫本应有但在此情况下没有的功能。:heart: