我曾两次出现峰值,一次在1月8日,一次在1月18日——两次都是来自俄罗斯的网络爬虫Yandex。两次尝试抓取都增加了一倍多。最大的窥探者是来自PetalSearch.com的petalbot。它们的扫描次数是Yandex和其他爬虫的4到6倍。
他们似乎认为自己是合法的,但显然是错的
有时那些命中是合法的机器人。有时……是别的东西。IP 地址通常会揭示真相。
总之——那些完全没用,而且它们基本上只是窃取内容,从不回馈任何东西。唯一的办法就是反向代理。但据我所知,Discourse 的情况很好,因为那些并没有增加太多负载。在 WordPress 世界里,这种情况可能会让网站瘫痪。
谢谢你帮我说明了我的观点!
你怎么看?
这看起来像一个标准报告。您应该可以在 /admin/reports/web_crawlers 找到您的报告 ![]()
AI 摘要:
讨论是关于 Discourse 网站上来自网络爬虫机器人的页面浏览量激增的问题。一些被识别为导致页面浏览量大幅增加的机器人包括:
- MegaIndex 机器人:一天内产生了约 4,000 次页面浏览
- MJ12bot:一天内产生了超过 5,000 次页面浏览
- Seekport 机器人:在多个场合导致了浏览量激增
- Yandex 机器人:在两次场合导致页面浏览量翻倍以上
- 来自 PetalSearch.com 的 PetalBot:页面扫描次数比其他机器人多 4-6 倍
- DataForSEO 机器人:一天内导致了超过 15,000 次页面浏览的激增
这些激增有时会导致性能问题。限制机器人流量的方法包括使用 robots.txt,但并非所有机器人都会遵守。其他选项是服务器级阻止和使用反向代理。这些机器人被视为“窃取内容”而未提供价值。
@Bas
你在这里发布了一个人工智能生成的摘要,这是响应我的请求而发布的,现在它不见了。
你删除它了吗?
是的,我确实这样做了,因为您原来的请求也被删除了 ![]()
我现在已将其恢复。
谢谢。
我倾向于删除那些过一段时间后阅读主题已无价值但又不至于让主题出现逻辑断层的回复。由于这是一个简单的请求,并且您创建了摘要,因此其他人无需每次访问该主题时都阅读该请求。
这是我从 StackExchange 网站上养成的一个习惯,我会在那里发表评论,然后稍后删除这些评论。我还有一些为自己和他人创建的、但与主题不直接相关的更有用的评论,它们以“Of interest”开头。我在 StackExchange 网站上可能有几百条这样的评论。我真的很希望 Discourse 也有这样的功能,但这个建议从未获得支持。
在检查我们网站的访问量时,页面浏览量非常异常。从高层概览来看
异常从 2023 年 10 月 23 日开始,我猜测是一个匿名用户。
检查
显示增加了一些我不认识的机器人
- fidget-spinner-bot
- my-tiny-bot
- thesis-research-bot
只是将此信息传递给您,因为它可能对您有价值。
我也遇到了同样的问题
我认为我们已经遇到过几次这种情况。似乎有一个爬虫没有表明自己是爬虫,因此被计为“匿名”浏览量。
(海报编辑 - 此帖子最初是一个新主题,现已合并到此处,没关系。原标题为“好奇心:自 2023 年 11 月初以来爬虫访问量大幅下降”)
我认为此时我这边没有任何变化:
其他人有看到类似的情况吗?
Anon 和 Crawler 之间没有大量的数字交换,所以这不是分类的更改。
是的
既然你发布了Consolidated Pageviews报告,我猜你拥有管理员权限。
/admin/reports/consolidated_page_views
另外,请使用
/admin/reports/web_crawlers
来识别是哪个网络爬虫产生了这些页面浏览量。
正如我们中的一些人发现的那样,这些机器人最近出现并导致了高数字
- fidget-spinner-bot
- my-tiny-bot
- thesis-research-bot
啊是的,我看到过那个关于增长的话题。但确实,这三个机器人都是导致高数字的原因——8号之后,它们都消失了,我们又回到了某种基线。这解释了下降的原因。
(版主:可以把这个帖子粘到那个帖子的底部。)(编辑:谢谢版主!)









