控制网站的网络爬虫

:bookmark: 本指南将介绍如何在您的 Discourse 站点上管理网络爬虫。

:person_raising_hand: 所需用户级别:管理员

网络爬虫会通过增加页面浏览量和服务器负载来显著影响您站点的性能。

当站点注意到页面浏览量激增时,检查网络爬虫的占比非常重要。


检查爬虫活动

要查看爬虫是否影响了您的站点,请从您的管理员仪表板导航到合并页面浏览量报告(/admin/reports/consolidated_page_views)。此报告会细分登录用户、匿名用户和爬虫的页面浏览量。

爬虫正常工作的站点:

失控的爬虫站点:

识别特定爬虫

转到网络爬虫用户代理报告(/admin/reports/web_crawlers),查找按页面浏览量排序的网络爬虫名称列表。

当一个有问题的网络爬虫访问站点时,其页面浏览量将远高于其他网络爬虫。请注意,可能同时有多个恶意网络爬虫在工作。

阻止和限制爬虫

养成不阻止主要搜索引擎(如 GoogleBingBaidu(中文)、Yandex(俄语)、Naver(韩语)、DuckDuckGoYahoo 等)的爬虫的习惯,具体取决于您的国家/地区。

当网络爬虫失控时,很可能同一个爬虫也访问了其他站点,并且其他人可能已经请求了相关信息或创建了报告,这些信息将有助于判断是否应限制或阻止该特定爬虫。

请注意,如果您使用第三方服务通过脚本等方式监控或为您的站点添加功能,某些爬虫可能会贡献大量的页面浏览量。

要获取不可信网络爬虫的记录,您可以参考此列表:https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt

调整爬虫设置

Admin > Settings 下,有一些设置可以帮助您限制特定爬虫的速率:

  • 使用以下选项减慢爬虫速度

    • slow down crawler user agents
    • slow down crawler rate
  • 使用以下选项阻止爬虫

    • blocked crawler user agents

请确保您知道要控制的爬虫的准确用户代理名称。如果您调整了上述任何设置但未看到该代理的页面浏览量有所减少,您可能需要仔细检查是否使用了正确的名称。

如有疑问,请始终先尝试“减慢速度”选项,而不是完全阻止。随着时间的推移,检查是否有改进。如果未注意到明显效果,您可以继续完全阻止。

17 个赞