供参考
对于那些关注网站页面浏览量的人来说,在 2022 年 7 月 2 日,我们的网站收到了来自 MegaIndex.ru 机器人的约 4,000 次页面浏览量。这绝对很显眼。
谢谢你的信息。
我不是在问问题,而是提醒其他人留意。这似乎是一个新的爬虫,它不会随着时间的推移分散它的访问。也许这是它第一次看到我们的网站,所以它访问了所有页面,但如果它继续这种一天大量访问的行为,我将进一步调查。
感谢提醒。这些写得很糟糕的机器人/网络索引器/网络爬虫确实会拖垮服务器!
我也注意到了。我的实例上大部分页面浏览量来自该机器人,其次是 Seekport(一天 35,000 次页面浏览量)和 mj12bot。我有时会因为它们而遭受拒绝服务攻击。Cloudflare 的反机器人功能帮助我限制了这些机器人,而无需过多监控。
是否可以减慢所有爬虫的速度——有效地添加 robots.txt crawl-delay?
不,很少有机器人遵循 robots.txt,更少有机器人遵守延迟。
那太遗憾了。这对于 Discourse 来说会是一个很好的功能。
出于兴趣,现有的系统(允许你阻止所有爬虫,但只为有限列表添加爬虫延迟)是否通过 robots.txt 的 disallow 和 crawl-delay 工作?
这完全是另一回事。不过,就我个人而言,我在另一个网站上发现 crawl-delay 是有效的。
只对白帽机器人有效,而且数量不多。其他机器人,好坏比例差不多是1:100,它们不在乎你的robots.txt里有什么。最好的机器人看起来只是为了找出系统管理员/网站管理员不想展示的地方,然后立刻就朝着那些方向去了。
(真的, 正在充当html标签:thinking: IMO,Discourse不应该只用< >来处理这个)
SEO机器人是行为非常恶劣的机器人。但大多数机器人都是脚本小子伪造的虚假用户代理。
可以完全阻止很多机器人,但这应该在服务器上进行,而不是在应用程序级别。
这都是题外话。我的经验有所不同,我希望 Discourse 能够设置 crawl-delay,而无需单独命名爬虫。
这是报表页面上的内置报表之一。
找到了。
| 用户代理 | 页面浏览量 |
|---|---|
| Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 5514 |
| Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) | 5212 |
| Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 1427 |
| Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) | 872 |
所以这些峰值来自 MJ21bot 和 Nexus 5X Build,后者在检查了 nginx 日志中的 IP 后是一个合法的 Google bot。
有什么想法为什么它们会产生如此多的页面浏览量?MJ12bot 看起来也很合法(至少,我的谷歌搜索是这么说的……)。请注意,论坛是在线的,但需要登录才能查看内容。它将在几天内公开。
我有时会在我的论坛上看到爬虫峰值,但它们只持续一两天就会消失很长一段时间。
例子:
检查 IP。它也是最常用的虚假 IP 之一。另外,它对你来说完全没用,就像所有所谓的 SEO 机器人一样。
我对爬虫知之甚少。官方的 Google 爬虫对 SEO 很有用,不是吗?如果我开始离题了,我很抱歉。
既然是我发起的话题,我不认为你的问题离题。我的帖子只是告知信息,而你只是想更好地理解信息的细节。
虽然我不是SEO专家,但如果你希望人们通过搜索引擎找到你的网站,那么你就需要允许搜索引擎爬虫抓取你的网站来建立和更新其索引。
问题在于,有些爬虫并没有引导用户访问网站,如果出现这种情况,而你又不希望有过多的页面访问量,那么你就可以通过robots.txt要求它们不要抓取你的网站。然而,不良的搜索引擎会忽略robots.txt,届时你就需要使用防火墙规则等。问题就变成了那个古老的问题:如果有人想访问一个开放的网站(无需登录),那么很难阻止他们,因为他们每次都会改变身份。如果需要登录,那么通常会减少注册人数。
关于原帖,自从报告的异常值以来,我没有再看到MeagIndex或其他爬虫导致页面浏览量出现另一个大规模的单日增长。
更新:2022年8月13日
机器人于2022年8月4日再次访问了我们的网站(爬虫网站)
报告:综合浏览量
报告:网络爬虫用户代理
报告:热门流量来源
显然,让 MegaIndex.ru/2.0 机器人索引该网站并没有为该网站带来流量。
注意:据我所知,yandex.ru 与 Megaindex.ru 不同。
要阻止爬虫,可以使用 robots.txt,如所述
https:///admin/customize/robots
但并非所有爬虫都会遵守 robots.txt。 ![]()
robots.txt 不是用来阻止机器人的。它是对行为良好的机器人的指导方针。这些应该在服务器级别停止。我的一大原因是我运行的 discourse 部署在反向代理后面。