本指南说明如何在您的 Discourse 网站上管理网络爬虫。
所需用户级别:管理员
网络爬虫会通过增加页面浏览量和服务器负载,对您网站的性能产生重大影响。
当网站注意到页面浏览量激增时,检查网络爬虫在此情况下的作用非常重要。
检查爬虫活动
要查看爬虫是否影响了您的网站,请从您的管理仪表板导航到网站流量 (Site Traffic) 报告(/admin/reports/site_traffic)。此报告会细分来自已登录浏览器用户、匿名浏览器用户、爬虫和其他来源的页面浏览量数据。
爬虫正常工作的网站:
爬虫失控的网站:
识别特定爬虫
转到网络爬虫用户代理 (Web Crawler User Agent) 报告(/admin/reports/web_crawlers),即可找到按页面浏览量排序的网络爬虫名称列表。
当一个有问题的网络爬虫访问网站时,其页面浏览量将远高于其他网络爬虫。请注意,可能同时有许多恶意网络爬虫在运行。
屏蔽和限制爬虫
根据您所在的国家/地区,不屏蔽主流搜索引擎的爬虫是一个好习惯,例如 Google、Bing、Baidu(中文)、Yandex(俄文)、Naver(韩文)、DuckDuckGo、Yahoo 等。
当一个网络爬虫失控时,很可能该爬虫已经访问了其他网站,并且其他人可能已经就此请求了信息或创建了报告,这些信息和报告将有助于您判断是应该限制还是屏蔽该特定爬虫。
请注意,如果您使用第三方服务通过脚本等方式来监控或向您的网站添加功能,某些爬虫可能会产生大量的页面浏览量。
要获取不可信网络爬虫的记录,您可以参考此列表:https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
调整爬虫设置
在管理 (Admin) > 设置 (Settings) 下,有一些设置可以帮助您对特定爬虫进行速率限制:
-
使用以下选项减慢爬虫速度 (Slow down crawlers):
slow down crawler user agents— 默认情况下,这包括gptbot、claudebot、anthropic-ai和brightbotslow down crawler rate— 每个爬虫允许的请求之间的秒数(默认为:60)
-
使用以下选项屏蔽爬虫 (Block crawlers):
blocked crawler user agents— 默认情况下,这包括mauibot、semrushbot、ahrefsbot、blexbot和seo spider
-
使用以下选项仅允许特定爬虫 (Allow only specific crawlers):
allowed crawler user agents— 设置后,只有列出的爬虫才被允许访问网站;所有其他爬虫将被屏蔽。这充当一个严格的允许列表。警告:设置此项将覆盖blocked crawler user agents并屏蔽列表中未包含的所有爬虫,包括主要搜索引擎(如果未包含在列表中)。
请确保您知道要控制的爬虫的准确用户代理名称。如果您调整了上述任何设置但未看到该代理的页面浏览量减少,您可能需要仔细检查是否使用了正确的名称。
当不确定如何处理时,请始终先尝试“减慢速度”选项,而不是完全屏蔽。检查一段时间后是否有改善。如果没有看到明显效果,您可以继续进行完全屏蔽。

