Bingbot n'est plus (par défaut) limité

Récemment, @neil a ajouté un support natif pour l’analyse du trafic des robots d’exploration ainsi que la possibilité de bloquer ou d’autoriser spécifiquement les user-agents de ces robots.

Une chose est immédiatement apparue : Bing, de manière constante, sur plusieurs sites, génère une charge nettement plus élevée que tout autre robot d’exploration.

Par exemple, sur Meta, nous avons observé sur une période d’environ une semaine les chiffres suivants :

User Agent Pageviews
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 183236
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 16117
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 15959
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) 9450
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 5022
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) 4498
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 3976

Bing explore Meta à plus de 10 fois la vitesse de tout autre robot. En examinant nos journaux plus détaillés, la tendance est très claire (et a également été vérifiée) :

En regardant une carte géographique, nous pouvons voir que le trafic provient très probablement de Microsoft.

En examinant des adresses IP spécifiques, je peux confirmer que cela provient bien de Microsoft grâce à des recherches d’IP inversées.

Bing n’hésite pas à accéder à Meta plus de 5000 fois sur une période de 3 heures, tandis que Google ne dépasse jamais 800 requêtes en pic et fonctionne généralement beaucoup plus lentement.

Suite à ce commit, Bing est désormais limité par défaut à une requête toutes les 60 secondes :

Vous pouvez supprimer ce ralentissement pour Bing en modifiant votre paramètre slow_down_crawler_user_agents, mais nous ne le recommandons pas sauf si vous comprenez les conséquences sur le trafic des robots d’exploration.

Nous avons pris cette mesure pour protéger les sites Discourse contre les attaques des robots de Microsoft. Je ne sais pas pourquoi Bing se comporte si mal ; ma théorie est que cela est dû au fait qu’il tente constamment de revalider les liens canoniques. Dans les journaux, je vois qu’il essaie trois fois par semaine de déterminer quelle est la page canonique pour un lien vers un sujet. Par exemple :

Même si nous indiquons à Bing que le lien canonique pour https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 est https://meta.discourse.org/t/topic-stopwatch-theme-component/83939, il semble ne pas nous « faire confiance » et doit vérifier à nouveau trois fois par semaine.

Nous sommes en contact avec Microsoft à ce sujet et ils travaillent sur une solution de leur côté, mais la résolution prendra des mois, voire des années. Cette mesure est donc nécessaire pour la protection de tous en attendant.

43 « J'aime »

Are you able to give us an update on the situation (almost two years later)?

1 « J'aime »

The update is that we raised a big commotion, they promised stuff will change and never contacted us since.

Not sure if there is anything more to do here cause it does respect the slow down command so I guess, problem solved.

I still have very low confidence with the crawling approach bing takes.

8 « J'aime »

Microsoft could be introducing a “new” Bing (or maybe I’m just reading this blog post incorrectly). Could that mean anything?

1 « J'aime »

Nothing in that post indicates any specific Bing changes that relate to how they crawl public sites, so suspect not.

7 « J'aime »

The Bing team recently created a new Twitter account for the engineering team, and so I decided to take advantage of that and tell them about the problems Discourse was having with Bing. I was able to get the attention of two people on the Bing team, but I need further assistance from people more knowledgable with Discourse. I’m not exactly an expert. https://twitter.com/facan/status/1300707035822960641?s=20 https://twitter.com/CoperniX/status/1300511151743066112?s=20 https://twitter.com/CoperniX/status/1300508479447130112?s=20

1 « J'aime »

Thanks for letting us know Justin. I am the Bing Program Manager managing the Bing crawling and indexing team. Sad to see our crawler apparently crawling too much on your Content Management System. As you said. we had issues and we adjusted… your feedback is telling us that we may have to adjust more. When we started looking at what you crawling on your web sites leveraging your CMS, as you know more than us, it will be nice if you can come back directly to me sharing example of logs what we deep dive with you.

The reality is that you know more than us what is changing your web sites… so these days, we are really encouraging web sites and Content Management System to adopt our URLs submission API Bing Webmaster Tools allowing real time indexing for added, updated , deleted content … allowing ultimately us to crawl only what’s has been modified. We have open source our code for Wordpress [Bing URL Submissions Plugin – WordPress plugin | WordPress.org] encouraging you to have a look and integrate… we can help.

8 « J'aime »

It’s not really only related to Discourse, Bing is by default very aggressive crawling websites @facan

1 « J'aime »

The Discourse team knows a ton more about this than I do. I just wanted to raise your attention about the issue, mostly in hopes that the Discourse team would take it from here. :slight_smile:

1 « J'aime »

There’s a clear test case here:

Can you try taking this to the developers and see if they can find the source of the bad behavior?

5 « J'aime »

Good day Sam,

I am the Program Manager managing the Bing crawling team. Can you please share the IP address(es) for Topic Stopwatch and Topic Stopwatch… according to our logs, we did not fetch these 2 URLs once in the past 2 weeks.

Thanks,
Fabrice

1 « J'aime »

That is very very old information bingbot has a crawl delay here and on all default Discourse instances.

Out of courtesy I will remove it from meta for 14 days and try to determine if it is indeed playing nicer now.

12 « J'aime »

Out of curiosity: do we have a status update here?

1 « J'aime »

Still under investigation, results should be available in a couple of weeks

7 « J'aime »

Fabrice, we tested this on a few sites and crawling behavior appears a lot more reasonable.

After this is merged the default throttle will be removed.

https://github.com/discourse/discourse/pull/11035

12 « J'aime »

J’avais déjà désactivé la limitation de débit sur mon propre site. Je suis ravi de voir que cela s’appliquera désormais à tous les forums Discourse sans intervention manuelle !

1 « J'aime »

Je viens de m’inscrire pour dire que mon collègue et moi sommes ravis d’apprendre que bingbot indexe correctement ce site. Il serait probablement préférable de verrouiller ce fil maintenant que nous avons résolu votre problème. Cela n’aurait pas de sens d’autoriser d’autres réponses pour quelque chose qui a déjà été résolu.

7 « J'aime »