MegaIndex bot一天进行了约4000次页面浏览

供参考

对于那些关注网站页面浏览量的人来说,在 2022 年 7 月 2 日,我们的网站收到了来自 MegaIndex.ru 机器人的约 4,000 次页面浏览量。这绝对很显眼。

7 个赞

你可以阻止它,也可以减缓它

5 个赞

谢谢你的信息。

我不是在问问题,而是提醒其他人留意。这似乎是一个新的爬虫,它不会随着时间的推移分散它的访问。也许这是它第一次看到我们的网站,所以它访问了所有页面,但如果它继续这种一天大量访问的行为,我将进一步调查。

4 个赞

感谢提醒。这些写得很糟糕的机器人/网络索引器/网络爬虫确实会拖垮服务器!

13 个赞

我也注意到了。我的实例上大部分页面浏览量来自该机器人,其次是 Seekport(一天 35,000 次页面浏览量)和 mj12bot。我有时会因为它们而遭受拒绝服务攻击。Cloudflare 的反机器人功能帮助我限制了这些机器人,而无需过多监控。

5 个赞

是否可以减慢所有爬虫的速度——有效地添加 robots.txt crawl-delay

2 个赞

不,很少有机器人遵循 robots.txt,更少有机器人遵守延迟。

2 个赞

那太遗憾了。这对于 Discourse 来说会是一个很好的功能。

出于兴趣,现有的系统(允许你阻止所有爬虫,但只为有限列表添加爬虫延迟)是否通过 robots.txt 的 disallowcrawl-delay 工作?

这完全是另一回事。不过,就我个人而言,我在另一个网站上发现 crawl-delay 是有效的。

2 个赞

只对白帽机器人有效,而且数量不多。其他机器人,好坏比例差不多是1:100,它们不在乎你的robots.txt里有什么。最好的机器人看起来只是为了找出系统管理员/网站管理员不想展示的地方,然后立刻就朝着那些方向去了。

(真的, 正在充当html标签:thinking: IMO,Discourse不应该只用< >来处理这个)

SEO机器人是行为非常恶劣的机器人。但大多数机器人都是脚本小子伪造的虚假用户代理。

可以完全阻止很多机器人,但这应该在服务器上进行,而不是在应用程序级别。

2 个赞

这都是题外话。我的经验有所不同,我希望 Discourse 能够设置 crawl-delay,而无需单独命名爬虫。

2 个赞

我也遇到了爬虫激增的问题。

我该如何识别滥用页面浏览量的爬虫?

4 个赞

这是报表页面上的内置报表之一。

3 个赞

找到了。

用户代理 页面浏览量
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) 5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) 872

所以这些峰值来自 MJ21bot 和 Nexus 5X Build,后者在检查了 nginx 日志中的 IP 后是一个合法的 Google bot。

有什么想法为什么它们会产生如此多的页面浏览量?MJ12bot 看起来也很合法(至少,我的谷歌搜索是这么说的……)。请注意,论坛是在线的,但需要登录才能查看内容。它将在几天内公开。

我有时会在我的论坛上看到爬虫峰值,但它们只持续一两天就会消失很长一段时间。

例子:

3 个赞

检查 IP。它也是最常用的虚假 IP 之一。另外,它对你来说完全没用,就像所有所谓的 SEO 机器人一样。

3 个赞

我对爬虫知之甚少。官方的 Google 爬虫对 SEO 很有用,不是吗?如果我开始离题了,我很抱歉。

3 个赞

既然是我发起的话题,我不认为你的问题离题。我的帖子只是告知信息,而你只是想更好地理解信息的细节。

虽然我不是SEO专家,但如果你希望人们通过搜索引擎找到你的网站,那么你就需要允许搜索引擎爬虫抓取你的网站来建立和更新其索引。

问题在于,有些爬虫并没有引导用户访问网站,如果出现这种情况,而你又不希望有过多的页面访问量,那么你就可以通过robots.txt要求它们不要抓取你的网站。然而,不良的搜索引擎会忽略robots.txt,届时你就需要使用防火墙规则等。问题就变成了那个古老的问题:如果有人想访问一个开放的网站(无需登录),那么很难阻止他们,因为他们每次都会改变身份。如果需要登录,那么通常会减少注册人数。

关于原帖,自从报告的异常值以来,我没有再看到MeagIndex或其他爬虫导致页面浏览量出现另一个大规模的单日增长。

2 个赞

更新:2022年8月13日

机器人于2022年8月4日再次访问了我们的网站(爬虫网站

报告:综合浏览量

报告:网络爬虫用户代理

报告:热门流量来源

显然,让 MegaIndex.ru/2.0 机器人索引该网站并没有为该网站带来流量。
注意:据我所知,yandex.ruMegaindex.ru 不同。


要阻止爬虫,可以使用 robots.txt,如所述

https:///admin/customize/robots

但并非所有爬虫都会遵守 robots.txt。 :slightly_frowning_face:


IAmGav上面所述,还有其他爬虫设置。

4 个赞

robots.txt 不是用来阻止机器人的。它是对行为良好的机器人的指导方针。这些应该在服务器级别停止。我的一大原因是我运行的 discourse 部署在反向代理后面。

4 个赞

2022年12月22日,https://bot.seekport.com,一个我之前不认识的新机器人,产生了大量的页面浏览量

2 个赞

半规律爬虫活动激增是很常见的。我们自己将它们分为:

  • 合法搜索引擎的常规爬虫
  • 新型/自定义搜索引擎的不规律爬虫
  • 竞争对手或任何其他可能有效利用您爬取数据的“研究人员”的目标爬虫。

根据我们的经验,除非您不希望您的信息被用于任何目的,或者您因此承受了严重的服务器负载,否则没有必要担心并保护自己免受爬取。最终,如果您的论坛/项目是公开的,总会有办法收集您的公开数据以达到任何目的 :slight_smile:

3 个赞