MegaIndex bot一天进行了约4000次页面浏览

EricGT · 2022 年2 月 10 日 22:35

供参考

对于那些关注网站页面浏览量的人来说，在 2022 年 7 月 2 日，我们的网站收到了来自 MegaIndex.ru 机器人的约 4,000 次页面浏览量。这绝对很显眼。

IAmGav · 2022 年2 月 10 日 22:59

你可以阻止它，也可以减缓它

EricGT · 2022 年2 月 11 日 01:05

谢谢你的信息。

我不是在问问题，而是提醒其他人留意。这似乎是一个新的爬虫，它不会随着时间的推移分散它的访问。也许这是它第一次看到我们的网站，所以它访问了所有页面，但如果它继续这种一天大量访问的行为，我将进一步调查。

codinghorror · 2022 年2 月 11 日 01:43

感谢提醒。这些写得很糟糕的机器人/网络索引器/网络爬虫确实会拖垮服务器！

Mr.X_Mr.X · 2022 年2 月 11 日 05:06

我也注意到了。我的实例上大部分页面浏览量来自该机器人，其次是 Seekport（一天 35,000 次页面浏览量）和 mj12bot。我有时会因为它们而遭受拒绝服务攻击。Cloudflare 的反机器人功能帮助我限制了这些机器人，而无需过多监控。

Jonathan5 · 2022 年2 月 11 日 08:21

是否可以减慢所有爬虫的速度——有效地添加 robots.txt crawl-delay？

Jagster · 2022 年2 月 12 日 19:36

不，很少有机器人遵循 robots.txt，更少有机器人遵守延迟。

Jonathan5 · 2022 年2 月 12 日 19:50

那太遗憾了。这对于 Discourse 来说会是一个很好的功能。

出于兴趣，现有的系统（允许你阻止所有爬虫，但只为有限列表添加爬虫延迟）是否通过 robots.txt 的 disallow 和 crawl-delay 工作？

这完全是另一回事。不过，就我个人而言，我在另一个网站上发现 crawl-delay 是有效的。

Jagster · 2022 年2 月 12 日 19:56

只对白帽机器人有效，而且数量不多。其他机器人，好坏比例差不多是1:100，它们不在乎你的robots.txt里有什么。最好的机器人看起来只是为了找出系统管理员/网站管理员不想展示的地方，然后立刻就朝着那些方向去了。

（真的，正在充当html标签：thinking: IMO，Discourse不应该只用< >来处理这个）

SEO机器人是行为非常恶劣的机器人。但大多数机器人都是脚本小子伪造的虚假用户代理。

可以完全阻止很多机器人，但这应该在服务器上进行，而不是在应用程序级别。

Jonathan5 · 2022 年2 月 12 日 20:00

这都是题外话。我的经验有所不同，我希望 Discourse 能够设置 crawl-delay，而无需单独命名爬虫。

Canapin · 2022 年3 月 2 日 14:05

我也遇到了爬虫激增的问题。

我该如何识别滥用页面浏览量的爬虫？

codinghorror · 2022 年3 月 2 日 22:04

这是报表页面上的内置报表之一。

Canapin · 2022 年3 月 2 日 22:49

找到了。

用户代理	页面浏览量
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)	5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)	872

所以这些峰值来自 MJ21bot 和 Nexus 5X Build，后者在检查了 nginx 日志中的 IP 后是一个合法的 Google bot。

有什么想法为什么它们会产生如此多的页面浏览量？MJ12bot 看起来也很合法（至少，我的谷歌搜索是这么说的……）。请注意，论坛是在线的，但需要登录才能查看内容。它将在几天内公开。

我有时会在我的论坛上看到爬虫峰值，但它们只持续一两天就会消失很长一段时间。

例子：

Jagster · 2022 年3 月 2 日 23:25

检查 IP。它也是最常用的虚假 IP 之一。另外，它对你来说完全没用，就像所有所谓的 SEO 机器人一样。

Canapin · 2022 年3 月 4 日 13:08

我对爬虫知之甚少。官方的 Google 爬虫对 SEO 很有用，不是吗？如果我开始离题了，我很抱歉。

EricGT · 2022 年3 月 5 日 08:19

既然是我发起的话题，我不认为你的问题离题。我的帖子只是告知信息，而你只是想更好地理解信息的细节。

虽然我不是SEO专家，但如果你希望人们通过搜索引擎找到你的网站，那么你就需要允许搜索引擎爬虫抓取你的网站来建立和更新其索引。

问题在于，有些爬虫并没有引导用户访问网站，如果出现这种情况，而你又不希望有过多的页面访问量，那么你就可以通过robots.txt要求它们不要抓取你的网站。然而，不良的搜索引擎会忽略robots.txt，届时你就需要使用防火墙规则等。问题就变成了那个古老的问题：如果有人想访问一个开放的网站（无需登录），那么很难阻止他们，因为他们每次都会改变身份。如果需要登录，那么通常会减少注册人数。

关于原帖，自从报告的异常值以来，我没有再看到MeagIndex或其他爬虫导致页面浏览量出现另一个大规模的单日增长。

EricGT · 2022 年8 月 13 日 12:21

更新：2022年8月13日

机器人于2022年8月4日再次访问了我们的网站（爬虫网站）

报告：综合浏览量

报告：网络爬虫用户代理

报告：热门流量来源

显然，让 MegaIndex.ru/2.0 机器人索引该网站并没有为该网站带来流量。
注意：据我所知，yandex.ru 与 Megaindex.ru 不同。

要阻止爬虫，可以使用 robots.txt，如所述

https:///admin/customize/robots

但并非所有爬虫都会遵守 robots.txt。

如 IAmGav 在上面所述，还有其他爬虫设置。

Jagster · 2022 年8 月 14 日 17:10

robots.txt 不是用来阻止机器人的。它是对行为良好的机器人的指导方针。这些应该在服务器级别停止。我的一大原因是我运行的 discourse 部署在反向代理后面。

EricGT · 2023 年1 月 11 日 08:51

2022年12月22日，https://bot.seekport.com，一个我之前不认识的新机器人，产生了大量的页面浏览量

kinetiksoft · 2023 年1 月 11 日 12:16

半规律爬虫活动激增是很常见的。我们自己将它们分为：

合法搜索引擎的常规爬虫
新型/自定义搜索引擎的不规律爬虫
竞争对手或任何其他可能有效利用您爬取数据的“研究人员”的目标爬虫。

根据我们的经验，除非您不希望您的信息被用于任何目的，或者您因此承受了严重的服务器负载，否则没有必要担心并保护自己免受爬取。最终，如果您的论坛/项目是公开的，总会有办法收集您的公开数据以达到任何目的

话题		回复	浏览量
Pageviews from Anonymous Users have exploded but Google Analytics showed no traffic growth. How to find about where the increase come from? Data & reporting	23	2349	2021 年1 月 5 日
Anonymous views suddenly very high Data & reporting	41	945	2025 年11 月 27 日
Has anyone seen the OpenAI web crawler GPTBot visit their site? Community	11	1894	2025 年6 月 23 日
Sudden drop in traffic Community	40	4128	2022 年12 月 15 日
Handling Bingbot Feature	29	7405	2020 年11 月 20 日

MegaIndex bot一天进行了约4000次页面浏览

相关话题