对于拥有管理员权限的用户,可以检查网络爬虫用户代理
例如,实际链接,根据需要更改您网站的 URL。
https://swi-prolog.discourse.group/admin/reports/web_crawlers
我们的网站显示 Mastodon 代理突然增加。我怀疑这些代理来自 Mastodon 网站。由于我现在不使用 Mastodon,因此必须调查这是否是我们将面临的潜在问题,还是仅仅需要注意的事情。
由于网页上显示的报告截断了一些需要的信息,因此下载了该报告。
web-crawlers-251023-084425-10.zip (4.3 KB)
在末尾注意到类似以下内容的行:
http.rb/5.1.1 (Mastodon/4.2.20; +https://acc4e.com/),1
有人能就以下几点提供更多信息吗?
- 这些代理与 Mastodon 社交网络站点有关吗?
- 由于 Mastodon 的工作方式,未来是否会出现更多此类代理?换句话说,它们是作为 Mastodon 设置或使用方式的副作用而产生的,而不是故意的?
- 如果它们对 Discourse 站点没有价值,是否应该/可以拒绝它们作为爬虫?
目前这不是一个紧迫的问题,因为所有 Mastodon 代理的页面浏览量都只有 1,而 Mozilla/5.0 代理列表顶部的页面浏览量为 37,279。
