Bingbot ya no está limitado por defecto

Recientemente, @neil añadió soporte integrado para análisis de tráfico de rastreadores y la creación de listas de bloqueo y de permitidos para los user-agents de los rastreadores.

Una de las primeras cosas que surgió fue que Bing, de manera consistente, en múltiples sitios, genera significativamente más carga que cualquier otro rastreador.

Por ejemplo, en Meta tenemos los siguientes datos en aproximadamente una semana:

User Agent Pageviews
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 183236
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 16117
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 15959
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) 9450
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 5022
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) 4498
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 3976

Bing está rastreando Meta a más de 10 veces la velocidad de cualquier otro rastreador. Al revisar nuestros registros más detallados, la tendencia es muy clara (y también se ha verificado):

Al observar un mapa geográfico, podemos ver que el tráfico muy probablemente proviene de Microsoft.

Al analizar IPs específicas, puedo confirmar que esto efectivamente proviene de Microsoft mediante búsquedas inversas de IP.

Bing no tiene reparos en acceder a Meta más de 5000 veces en un período de 3 horas; Google no supera los 800 picos y generalmente funciona mucho más lento.

Tras este commit, Bing está limitado por defecto a 60 segundos por solicitud:

Puedes eliminar esta limitación para Bing editando tu slow_down_crawler_user_agents, pero no lo recomendamos a menos que comprendas las consecuencias en el tráfico de los rastreadores.

Decidimos tomar esta medida para proteger los sitios de Discourse de los ataques de los rastreadores de Microsoft. No tengo idea de por qué Bing se comporta tan mal; mi teoría es que parte de la razón por la que rastrea tan agresivamente es porque está constantemente intentando revalidar los enlaces canónicos. En los registros puedo ver que tres veces por semana intenta determinar cuál es la página canónica para un enlace de publicación. Por ejemplo:

Aunque le indicamos a Bing que el canónico para https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 es https://meta.discourse.org/t/topic-stopwatch-theme-component/83939, parece que no “confía” en nosotros y tiene que volver a verificarlo tres veces por semana.

Hemos estado en contacto con Microsoft sobre este tema y ellos están trabajando en ello de su lado, pero la resolución está a meses, si no años, de distancia, por lo que esta medida es necesaria para la protección de todos mientras tanto.

43 Me gusta

Are you able to give us an update on the situation (almost two years later)?

1 me gusta

The update is that we raised a big commotion, they promised stuff will change and never contacted us since.

Not sure if there is anything more to do here cause it does respect the slow down command so I guess, problem solved.

I still have very low confidence with the crawling approach bing takes.

8 Me gusta

Microsoft could be introducing a “new” Bing (or maybe I’m just reading this blog post incorrectly). Could that mean anything?

1 me gusta

Nothing in that post indicates any specific Bing changes that relate to how they crawl public sites, so suspect not.

7 Me gusta

El equipo de Bing creó recientemente una nueva cuenta de Twitter para el equipo de ingeniería, así que decidí aprovecharlo y contarles sobre los problemas que Discourse tenía con Bing. Logré llamar la atención de dos personas del equipo de Bing, pero necesito más asistencia de personas con más conocimiento sobre Discourse. No soy exactamente un experto. https://twitter.com/facan/status/1300707035822960641?s=20 https://twitter.com/CoperniX/status/1300511151743066112?s=20 https://twitter.com/CoperniX/status/1300508479447130112?s=20

1 me gusta

Gracias por hacérnoslo saber, Justin. Soy el administrador de programas de Bing que dirige el equipo de rastreo e indexación de Bing. Lamentamos ver que nuestro rastreador parece estar accediendo en exceso a su sistema de gestión de contenidos. Como usted mencionó, tuvimos problemas y los ajustamos; su retroalimentación nos indica que quizás debamos realizar más ajustes. Cuando comenzamos a analizar qué se está rastreando en sus sitios web aprovechando su CMS, como usted sabe más que nosotros, sería ideal que pudiera contactarme directamente y compartir ejemplos de registros para que podamos profundizar en el análisis juntos.

La realidad es que usted conoce mejor que nosotros los cambios en sus sitios web… por lo que en estos días estamos alentando activamente a sitios web y sistemas de gestión de contenidos a adoptar nuestra API de envío de URLs Why IndexNow | Bing Webmaster Tools, que permite la indexación en tiempo real para contenido agregado, actualizado o eliminado, lo que finalmente nos permite rastrear solo lo que ha sido modificado. Hemos abierto el código de nuestro complemento para WordPress [Bing URL Submissions Plugin – WordPress plugin | WordPress.org] y lo animamos a que lo revise e integre… podemos ayudarle.

8 Me gusta

No se trata realmente solo de Discourse; Bing, por defecto, rastrea los sitios web de manera muy agresiva @facan

1 me gusta

El equipo de Discourse sabe mucho más sobre esto que yo. Solo quería llamar tu atención sobre el problema, sobre todo con la esperanza de que el equipo de Discourse se haga cargo a partir de aquí. :slight_smile:

1 me gusta

Aquí hay un caso de prueba claro:

¿Puedes llevar esto a los desarrolladores y ver si pueden encontrar la fuente de este mal comportamiento?

5 Me gusta

Buenos días, Sam,

Soy el Gerente de Programa que dirige el equipo de rastreo de Bing. ¿Podrías compartirnos la(s) dirección(es) IP de Topic Stopwatch - #20 by fellowshipforums y Topic Stopwatch…? Según nuestros registros, no hemos recuperado estas dos URLs en las últimas dos semanas.

Gracias,
Fabrice

1 me gusta

Esa es información muy, muy antigua. Bingbot tiene un retraso de rastreo aquí y en todas las instancias predeterminadas de Discourse.

Por cortesía, lo eliminaré de meta durante 14 días y trataré de determinar si ahora se comporta mejor.

12 Me gusta

Por curiosidad: ¿tenemos una actualización de estado aquí?

1 me gusta

Sigue bajo investigación; los resultados deberían estar disponibles en un par de semanas

7 Me gusta

Fabrice, lo hemos probado en varios sitios y el comportamiento de rastreo parece mucho más razonable.

Una vez que esto se fusiona, se eliminará el límite de velocidad predeterminado.

12 Me gusta

Ya tenía la limitación de velocidad desactivada en mi propio sitio. ¡Me alegra ver que esto se aplicará a todos los foros de Discourse ahora sin necesidad de intervención manual!

1 me gusta

Acabo de unirme para decir que mi colega y yo estamos contentos de saber que bingbot está indexando correctamente este sitio. Probablemente sea mejor bloquear este hilo ahora que hemos resuelto tu problema. No tendría sentido permitir más respuestas para algo que ya está solucionado.

7 Me gusta