sam
(Sam Saffron)
1
最近,@neil 添加了内置的 爬虫流量分析 支持,以及针对爬虫用户代理的黑名单/白名单功能。
其中一个立即显现的问题是,Bing 在多个站点上持续产生的负载远超其他任何爬虫。
例如,在 meta 站点上,大约一周内的数据如下:
| User Agent |
Pageviews |
| Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) |
183236 |
| Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
16117 |
| Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) |
15959 |
| Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) |
9450 |
| Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) |
5022 |
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) |
4498 |
| Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) |
3976 |
Bing 对 meta 的抓取频率是其他任何爬虫的10 倍以上。查看我们更详细的日志,这一趋势非常明显(且已交叉验证):
通过查看地理热力图,我们可以看到流量极有可能来自微软。
通过检查具体的 IP 地址并进行反向 IP 查询,我确认这些请求确实来自微软。
Bing 毫不介意在 3 小时内对 meta 发起超过 5000 次请求,而 Google 的峰值不会超过 800 次,且通常运行速度要慢得多。
在此提交之后,Bing 默认被限制为每 60 秒请求一次:
你可以通过编辑 slow_down_crawler_user_agents 来移除对 Bing 的这一限制,但除非你完全了解由此带来的爬虫流量后果,否则我们不推荐这样做。
我们采取这一措施是为了保护世界各地的 Discourse 站点免受微软爬虫的攻击。我不清楚为什么 Bing 表现得如此糟糕,我的推测是,部分原因在于它一直在尝试重新验证规范链接(canonical links)。在日志中,我可以看到它每周会尝试确定帖子链接的规范页面三次。例如:
即使我们告知 Bing https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 的规范链接是 https://meta.discourse.org/t/topic-stopwatch-theme-component/83939,它似乎并不“信任”我们,每周仍需检查三次。
我们已就此与微软取得联系,他们正在其端进行修复,但解决这一问题可能需要数月甚至数年的时间。因此,在此期间,这一措施对所有人的保护都是必要的。
43 个赞
您能否为我们提供一下当前情况的最新进展(时隔近两年)?
1 个赞
sam
(Sam Saffron)
4
这次更新的情况是,我们闹出了很大动静,他们承诺会做出改变,但此后再也没有联系过我们。
不确定这里是否还有更多需要做的事情,因为它确实遵守了减速命令,所以我想问题已经解决了。
但我对 Bing 采用的爬虫方法仍然信心不足。
8 个赞
微软可能要推出“新版”必应(或者我只是误解了这篇博客文章)。这是否意味着什么?
1 个赞
那篇帖子中没有任何内容表明必应针对其抓取公共网站的方式进行了任何具体更改,因此怀疑并非如此。
7 个赞
facan
(Fabrice Canel)
8
感谢您告知我们,Justin。我是必应程序经理,负责管理必应的爬网和索引团队。很遗憾看到我们的爬虫似乎对您的内容管理系统进行了过多的爬取。正如您所说,我们曾遇到问题并已做出调整。您的反馈表明我们可能需要进行更多调整。当我们开始研究您网站上利用内容管理系统进行爬取的内容时,正如您比我们更了解的那样,如果您能直接与我联系,分享日志示例,以便我们与您深入探讨,那将非常有益。
实际情况是,您比我们更清楚是什么导致您的网站发生变化。因此,这些天我们非常鼓励网站和内容管理系统采用我们的 URL 提交 API(Bing Webmaster Tools WordPress 的开源代码发布在 [Bing URL Submissions Plugin – WordPress plugin | WordPress.org],欢迎您查看并集成。我们可以提供帮助。
8 个赞
这并不仅仅与 Discourse 有关,Bing 默认就会非常积极地抓取网站 @facan
1 个赞
Discourse 团队对此的了解远比我深入。我提出这个问题,主要是希望引起大家的注意,并期待 Discourse 团队能接手处理。
1 个赞
riking
(Kane York)
12
这里有一个明确的测试案例:
你能否将此问题反馈给开发人员,看看他们能否找出导致这种不良行为的原因?
5 个赞
facan
(Fabrice Canel)
13
您好,Sam:
我是负责必应爬虫团队的程序经理。能否请您提供以下两个链接的 IP 地址:Topic Stopwatch - #20 by fellowshipforums 和 Topic Stopwatch… 根据我们的日志,过去两周内我们从未抓取过这两个 URL。
谢谢,
Fabrice
1 个赞
sam
(Sam Saffron)
14
这是非常非常旧的信息,bingbot 在所有默认的 Discourse 实例中(包括此处)都设置了抓取延迟。
出于礼貌,我将在 meta 中将其移除 14 天,并尝试确认它现在是否确实表现得更友好。
12 个赞
sam
(Sam Saffron)
25
Fabrice,我们在几个网站上测试了这一点,爬取行为看起来合理多了。
合并后,默认的节流限制将被移除。
12 个赞
我已经在自己的网站上禁用了限流。很高兴看到现在所有 Discourse 论坛都将自动适用此设置,无需手动干预!
1 个赞
Frédéric
(Frédéric Dubut)
27
刚注册就想说,我和同事很高兴听到 bingbot 正在正确索引本网站。既然您的问题已解决,最好现在锁定此线程。对于已经解决的问题,再允许更多回复并无意义。
7 个赞