阅读此线程:Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News
我想知道对于那些自行托管的人来说,如何应对爬虫几乎不停地进行 DDoS 攻击,尤其是在联邦宇宙(Fediverse)中的实例上。
阅读此线程:Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News
我想知道对于那些自行托管的人来说,如何应对爬虫几乎不停地进行 DDoS 攻击,尤其是在联邦宇宙(Fediverse)中的实例上。
我认为,第一步是利用“新的”页面浏览量指标来量化这是一个多大的问题:
如果您看到大约 60% 的非人类流量,那可能没关系,您无需采取行动。
如果达到 95%……是的,可能是时候开始研究解决方案了。
设置“阻止的爬虫用户代理”是管理员的好帮手。垃圾流量对于 Discourse 来说不是大问题,因为负载不重。但我确实封禁了一些最差的爬虫,因为我非常讨厌它们的商业模式。大家都在抱怨 AI 公司窃取内容,它们确实在这样做,但 SEO 公司更糟糕——它们的爬虫非常贪婪。
但我也在使用地理封锁,因为我能做到。至少有六个国家是盗版者和其他恶意行为者的来源。但如果一个论坛是面向全球受众的,那当然就不可能了。
在我的 WordPress 网站上,同样的事情是通过 Nginx 在 Varnish 的帮助下完成的。
目前,我的论坛上人类与爬虫的比例大约是 50/50。
顺便说一句,标签可能不对,我猜。
我同意,AI 标签有一个插件图标,所以我认为它只适用于 AI 插件。我已经删除了它。
爬虫内容会被大量缓存,所以实际上我从未见过它们能够进行 DDoS 攻击。
你是否真的因此遇到了性能问题?