自托管的用户是如何应对恶意爬虫的？

eisammy · 2025 年4 月 10 日 16:02

我想知道对于那些自行托管的人来说，如何应对爬虫几乎不停地进行 DDoS 攻击，尤其是在联邦宇宙（Fediverse）中的实例上。

Bas · 2025 年4 月 11 日 08:20

我认为，第一步是利用“新的”页面浏览量指标来量化这是一个多大的问题：

如果您看到大约 60% 的非人类流量，那可能没关系，您无需采取行动。
如果达到 95%……是的，可能是时候开始研究解决方案了。

Jagster · 2025 年4 月 11 日 08:57

设置“阻止的爬虫用户代理”是管理员的好帮手。垃圾流量对于 Discourse 来说不是大问题，因为负载不重。但我确实封禁了一些最差的爬虫，因为我非常讨厌它们的商业模式。大家都在抱怨 AI 公司窃取内容，它们确实在这样做，但 SEO 公司更糟糕——它们的爬虫非常贪婪。

但我也在使用地理封锁，因为我能做到。至少有六个国家是盗版者和其他恶意行为者的来源。但如果一个论坛是面向全球受众的，那当然就不可能了。

在我的 WordPress 网站上，同样的事情是通过 Nginx 在 Varnish 的帮助下完成的。

目前，我的论坛上人类与爬虫的比例大约是 50/50。

Jagster · 2025 年4 月 11 日 08:59

顺便说一句，标签可能不对，我猜。

RGJ · 2025 年4 月 11 日 09:22

我同意，AI 标签有一个插件图标，所以我认为它只适用于 AI 插件。我已经删除了它。

爬虫内容会被大量缓存，所以实际上我从未见过它们能够进行 DDoS 攻击。

你是否真的因此遇到了性能问题？

话题		回复	浏览量
Smarter handling of random crawler traffic Feature	2	3537	2018 年3 月 29 日
Controlling Web Crawlers For a Site Site Management how-to	10	2469	2025 年7 月 19 日
Too many Crawlers, is that a problem? Data & reporting	6	2534	2020 年6 月 25 日
How to deal with sudden high “Other traffic” in site analytics? Support	8	234	2025 年8 月 28 日
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4549	2023 年12 月 2 日