Bingbot 默认不再限流

最近,@neil 添加了内置的 爬虫流量分析 支持,以及针对爬虫用户代理的黑名单/白名单功能。

其中一个立即显现的问题是,Bing 在多个站点上持续产生的负载远超其他任何爬虫。

例如,在 meta 站点上,大约一周内的数据如下:

User Agent Pageviews
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 183236
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 16117
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 15959
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) 9450
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 5022
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) 4498
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 3976

Bing 对 meta 的抓取频率是其他任何爬虫的10 倍以上。查看我们更详细的日志,这一趋势非常明显(且已交叉验证):

通过查看地理热力图,我们可以看到流量极有可能来自微软。

通过检查具体的 IP 地址并进行反向 IP 查询,我确认这些请求确实来自微软。

Bing 毫不介意在 3 小时内对 meta 发起超过 5000 次请求,而 Google 的峰值不会超过 800 次,且通常运行速度要慢得多。

在此提交之后,Bing 默认被限制为每 60 秒请求一次:

你可以通过编辑 slow_down_crawler_user_agents 来移除对 Bing 的这一限制,但除非你完全了解由此带来的爬虫流量后果,否则我们不推荐这样做。

我们采取这一措施是为了保护世界各地的 Discourse 站点免受微软爬虫的攻击。我不清楚为什么 Bing 表现得如此糟糕,我的推测是,部分原因在于它一直在尝试重新验证规范链接(canonical links)。在日志中,我可以看到它每周会尝试确定帖子链接的规范页面三次。例如:

即使我们告知 Bing https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 的规范链接是 https://meta.discourse.org/t/topic-stopwatch-theme-component/83939,它似乎并不“信任”我们,每周仍需检查三次。

我们已就此与微软取得联系,他们正在其端进行修复,但解决这一问题可能需要数月甚至数年的时间。因此,在此期间,这一措施对所有人的保护都是必要的。

43 个赞

Are you able to give us an update on the situation (almost two years later)?

1 个赞

The update is that we raised a big commotion, they promised stuff will change and never contacted us since.

Not sure if there is anything more to do here cause it does respect the slow down command so I guess, problem solved.

I still have very low confidence with the crawling approach bing takes.

8 个赞

Microsoft could be introducing a “new” Bing (or maybe I’m just reading this blog post incorrectly). Could that mean anything?

1 个赞

Nothing in that post indicates any specific Bing changes that relate to how they crawl public sites, so suspect not.

7 个赞

Bing 团队最近为工程团队创建了一个新的 Twitter 账号,因此我决定借此机会向他们说明 Discourse 与 Bing 之间存在的问题。我成功引起了 Bing 团队中两位成员的注意,但我需要更熟悉 Discourse 的人士提供进一步协助,因为我并非专家。https://twitter.com/facan/status/1300707035822960641?s=20 https://twitter.com/CoperniX/status/1300511151743066112?s=20 https://twitter.com/CoperniX/status/1300508479447130112?s=20

1 个赞

感谢您告知我们,Justin。我是必应程序经理,负责管理必应的爬网和索引团队。很遗憾看到我们的爬虫似乎对您的内容管理系统进行了过多的爬取。正如您所说,我们曾遇到问题并已做出调整。您的反馈表明我们可能需要进行更多调整。当我们开始研究您网站上利用内容管理系统进行爬取的内容时,正如您比我们更了解的那样,如果您能直接与我联系,分享日志示例,以便我们与您深入探讨,那将非常有益。

实际情况是,您比我们更清楚是什么导致您的网站发生变化。因此,这些天我们非常鼓励网站和内容管理系统采用我们的 URL 提交 API(Bing Webmaster Tools WordPress 的开源代码发布在 [Bing URL Submissions Plugin – WordPress plugin | WordPress.org],欢迎您查看并集成。我们可以提供帮助。

8 个赞

这并不仅仅与 Discourse 有关,Bing 默认就会非常积极地抓取网站 @facan

1 个赞

Discourse 团队对此的了解远比我深入。我提出这个问题,主要是希望引起大家的注意,并期待 Discourse 团队能接手处理。:slight_smile:

1 个赞

这里有一个明确的测试案例:

你能否将此问题反馈给开发人员,看看他们能否找出导致这种不良行为的原因?

5 个赞

您好,Sam:

我是负责必应爬虫团队的程序经理。能否请您提供以下两个链接的 IP 地址:Topic Stopwatch - #20 by fellowshipforumsTopic Stopwatch… 根据我们的日志,过去两周内我们从未抓取过这两个 URL。

谢谢,
Fabrice

1 个赞

这是非常非常旧的信息,bingbot 在所有默认的 Discourse 实例中(包括此处)都设置了抓取延迟。

出于礼貌,我将在 meta 中将其移除 14 天,并尝试确认它现在是否确实表现得更友好。

12 个赞

出于好奇:我们这里有状态更新吗?

1 个赞

仍在调查中,结果预计将在几周内公布

7 个赞

Fabrice,我们在几个网站上测试了这一点,爬取行为看起来合理多了。

合并后,默认的节流限制将被移除。

12 个赞

我已经在自己的网站上禁用了限流。很高兴看到现在所有 Discourse 论坛都将自动适用此设置,无需手动干预!

1 个赞

刚注册就想说,我和同事很高兴听到 bingbot 正在正确索引本网站。既然您的问题已解决,最好现在锁定此线程。对于已经解决的问题,再允许更多回复并无意义。

7 个赞