Bingbot n'est plus (par défaut) limité

Récemment, @neil a ajouté un support natif pour l’analyse du trafic des robots d’exploration ainsi que la possibilité de bloquer ou d’autoriser spécifiquement les user-agents de ces robots.

Une chose est immédiatement apparue : Bing, de manière constante, sur plusieurs sites, génère une charge nettement plus élevée que tout autre robot d’exploration.

Par exemple, sur Meta, nous avons observé sur une période d’environ une semaine les chiffres suivants :

User Agent Pageviews
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 183236
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 16117
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 15959
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) 9450
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 5022
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) 4498
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 3976

Bing explore Meta à plus de 10 fois la vitesse de tout autre robot. En examinant nos journaux plus détaillés, la tendance est très claire (et a également été vérifiée) :

En regardant une carte géographique, nous pouvons voir que le trafic provient très probablement de Microsoft.

En examinant des adresses IP spécifiques, je peux confirmer que cela provient bien de Microsoft grâce à des recherches d’IP inversées.

Bing n’hésite pas à accéder à Meta plus de 5000 fois sur une période de 3 heures, tandis que Google ne dépasse jamais 800 requêtes en pic et fonctionne généralement beaucoup plus lentement.

Suite à ce commit, Bing est désormais limité par défaut à une requête toutes les 60 secondes :

Vous pouvez supprimer ce ralentissement pour Bing en modifiant votre paramètre slow_down_crawler_user_agents, mais nous ne le recommandons pas sauf si vous comprenez les conséquences sur le trafic des robots d’exploration.

Nous avons pris cette mesure pour protéger les sites Discourse contre les attaques des robots de Microsoft. Je ne sais pas pourquoi Bing se comporte si mal ; ma théorie est que cela est dû au fait qu’il tente constamment de revalider les liens canoniques. Dans les journaux, je vois qu’il essaie trois fois par semaine de déterminer quelle est la page canonique pour un lien vers un sujet. Par exemple :

Même si nous indiquons à Bing que le lien canonique pour https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 est https://meta.discourse.org/t/topic-stopwatch-theme-component/83939, il semble ne pas nous « faire confiance » et doit vérifier à nouveau trois fois par semaine.

Nous sommes en contact avec Microsoft à ce sujet et ils travaillent sur une solution de leur côté, mais la résolution prendra des mois, voire des années. Cette mesure est donc nécessaire pour la protection de tous en attendant.

43 « J'aime »

Are you able to give us an update on the situation (almost two years later)?

1 « J'aime »

The update is that we raised a big commotion, they promised stuff will change and never contacted us since.

Not sure if there is anything more to do here cause it does respect the slow down command so I guess, problem solved.

I still have very low confidence with the crawling approach bing takes.

8 « J'aime »

Microsoft could be introducing a “new” Bing (or maybe I’m just reading this blog post incorrectly). Could that mean anything?

1 « J'aime »

Nothing in that post indicates any specific Bing changes that relate to how they crawl public sites, so suspect not.

7 « J'aime »

L’équipe de Bing a récemment créé un nouveau compte Twitter pour son équipe d’ingénierie, alors j’ai décidé de profiter de l’occasion pour leur parler des problèmes que Discourse rencontrait avec Bing. J’ai réussi à attirer l’attention de deux personnes de l’équipe Bing, mais j’ai besoin d’une assistance supplémentaire de la part de personnes plus compétentes sur Discourse. Je ne suis pas vraiment un expert. https://twitter.com/facan/status/1300707035822960641?s=20 https://twitter.com/CoperniX/status/1300511151743066112?s=20 https://twitter.com/CoperniX/status/1300508479447130112?s=20

1 « J'aime »

Merci de nous avoir informés, Justin. Je suis le chef de programme Bing en charge de l’équipe de crawl et d’indexation de Bing. Je suis désolé de constater que notre robot semble trop solliciter votre système de gestion de contenu (CMS). Comme vous l’avez mentionné, nous avons rencontré des problèmes et nous avons apporté des ajustements. Vos retours nous indiquent que nous devrons peut-être ajuster davantage. Lorsque nous avons commencé à examiner ce que notre robot crawlait sur vos sites web en exploitant votre CMS, vous en savez plus que nous à ce sujet. Il serait donc utile que vous reveniez directement vers moi en partageant des exemples de journaux (logs) afin que nous puissions approfondir l’analyse avec vous.

La réalité est que vous savez mieux que nous ce qui modifie vos sites web. Ces derniers temps, nous encourageons vivement les sites web et les systèmes de gestion de contenu à adopter notre API de soumission d’URL : Why IndexNow | Bing Webmaster Tools, permettant une indexation en temps réel pour le contenu ajouté, mis à jour ou supprimé. Cela nous permettrait finalement de ne crawler que ce qui a été modifié. Nous avons rendu notre code source pour WordPress disponible en open source : [Bing URL Submissions Plugin – WordPress plugin | WordPress.org]. Nous vous invitons à le consulter et à l’intégrer. Nous pouvons vous aider.

8 « J'aime »

Ce n’est pas vraiment uniquement lié à Discourse, Bing est par défaut très agressif dans le crawl des sites web @facan

1 « J'aime »

L’équipe de Discourse en sait beaucoup plus à ce sujet que moi. Je voulais simplement attirer votre attention sur ce problème, surtout dans l’espoir que l’équipe de Discourse s’en chargera désormais. :slight_smile:

1 « J'aime »

Il y a un cas de test clair ici :

Pouvez-vous transmettre cela aux développeurs et voir s’ils peuvent identifier la source de ce comportement erroné ?

5 « J'aime »

Bonjour Sam,

Je suis le responsable de programme qui gère l’équipe de crawl de Bing. Pourriez-vous s’il vous plaît partager l’adresse ou les adresses IP de Topic Stopwatch - #20 by fellowshipforums et Topic Stopwatch… Selon nos journaux, nous n’avons pas récupéré ces deux URL au cours des deux dernières semaines.

Cordialement,
Fabrice

1 « J'aime »

Ces informations sont très, très anciennes. Bingbot applique un délai de crawl ici et sur toutes les instances Discourse par défaut.

Par courtoisie, je vais le retirer de Meta pendant 14 jours et essayer de déterminer s’il se comporte effectivement mieux désormais.

12 « J'aime »

Par curiosité : avons-nous une mise à jour de l’état des lieux ici ?

1 « J'aime »

Toujours en cours d’enquête, les résultats devraient être disponibles dans quelques semaines

7 « J'aime »

Fabrice, nous avons testé cela sur quelques sites et le comportement de crawl semble beaucoup plus raisonnable.

Une fois cela fusionné, la limitation par défaut sera supprimée.

12 « J'aime »

J’avais déjà désactivé la limitation de débit sur mon propre site. Je suis ravi de voir que cela s’appliquera désormais à tous les forums Discourse sans intervention manuelle !

1 « J'aime »

Je viens de m’inscrire pour dire que mon collègue et moi sommes ravis d’apprendre que bingbot indexe correctement ce site. Il serait probablement préférable de verrouiller ce fil maintenant que nous avons résolu votre problème. Cela n’aurait pas de sens d’autoriser d’autres réponses pour quelque chose qui a déjà été résolu.

7 « J'aime »