Recientemente, @neil añadió soporte integrado para análisis de tráfico de rastreadores y la creación de listas de bloqueo y de permitidos para los user-agents de los rastreadores.
Una de las primeras cosas que surgió fue que Bing, de manera consistente, en múltiples sitios, genera significativamente más carga que cualquier otro rastreador.
Por ejemplo, en Meta tenemos los siguientes datos en aproximadamente una semana:
| User Agent | Pageviews |
|---|---|
| Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) | 183236 |
| Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 16117 |
| Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) | 15959 |
| Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) | 9450 |
| Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) | 5022 |
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) |
4498 |
| Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) | 3976 |
Bing está rastreando Meta a más de 10 veces la velocidad de cualquier otro rastreador. Al revisar nuestros registros más detallados, la tendencia es muy clara (y también se ha verificado):
Al observar un mapa geográfico, podemos ver que el tráfico muy probablemente proviene de Microsoft.
Al analizar IPs específicas, puedo confirmar que esto efectivamente proviene de Microsoft mediante búsquedas inversas de IP.
Bing no tiene reparos en acceder a Meta más de 5000 veces en un período de 3 horas; Google no supera los 800 picos y generalmente funciona mucho más lento.
Tras este commit, Bing está limitado por defecto a 60 segundos por solicitud:
Puedes eliminar esta limitación para Bing editando tu slow_down_crawler_user_agents, pero no lo recomendamos a menos que comprendas las consecuencias en el tráfico de los rastreadores.
Decidimos tomar esta medida para proteger los sitios de Discourse de los ataques de los rastreadores de Microsoft. No tengo idea de por qué Bing se comporta tan mal; mi teoría es que parte de la razón por la que rastrea tan agresivamente es porque está constantemente intentando revalidar los enlaces canónicos. En los registros puedo ver que tres veces por semana intenta determinar cuál es la página canónica para un enlace de publicación. Por ejemplo:
Aunque le indicamos a Bing que el canónico para https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 es https://meta.discourse.org/t/topic-stopwatch-theme-component/83939, parece que no “confía” en nosotros y tiene que volver a verificarlo tres veces por semana.
Hemos estado en contacto con Microsoft sobre este tema y ellos están trabajando en ello de su lado, pero la resolución está a meses, si no años, de distancia, por lo que esta medida es necesaria para la protección de todos mientras tanto.


