Bingbot não é mais limitado por padrão

Recently @neil added built-in support for crawler traffic analysis and blocklisting / allowlisting of crawler user-agents.

One thing that immediately popped up is that bing, consistently, across multiple sites is generating significantly more load than any other crawler.

For example on meta we have the following over about a week:

User Agent Pageviews
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 183236
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 16117
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 15959
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) 9450
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 5022
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) 4498
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 3976

Bing is crawling meta at more than 10x the rate of any other crawler. Looking at our richer logs the trend is very clear (and also cross checked):

Looking at a geomap we can see the traffic is very likely coming from Microsoft

Looking at specific ips I can see this is indeed coming from Microsoft using reverse IP lookups.

bing has no qualms hitting meta more than 5000 times in a 3 hour period, Google will not spike at over 800 and usually runs much slower.

Following this commit, bing is default throttled to 60 seconds per request:

You can remove this throttle bing by editing your slow_down_crawler_user_agents, but we don’t recommend it unless you understand the crawler traffic consequences.

We decided to take this measure to protect Discourse sites out there from being attacked by Microsoft crawlers. I have no idea why bing behaves so badly, my theory is that part of the reason it is crawling so aggressively is cause it is constantly trying to re-validate canonical links. In the logs I can see that 3 times a week it will try to figure out what the canonical page is for a post link. So, for example:

Even though we tell bing the canonical for https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 is https://meta.discourse.org/t/topic-stopwatch-theme-component/83939 it does not appear to “trust” us and has to check back 3 times a week.

We have been in contact with Microsoft on this and they are working on it on their end, but resolution is months if not years away, so this is necessary for everyone’s protection in the meantime.

43 curtidas

Are you able to give us an update on the situation (almost two years later)?

1 curtida

The update is that we raised a big commotion, they promised stuff will change and never contacted us since.

Not sure if there is anything more to do here cause it does respect the slow down command so I guess, problem solved.

I still have very low confidence with the crawling approach bing takes.

8 curtidas

Microsoft could be introducing a “new” Bing (or maybe I’m just reading this blog post incorrectly). Could that mean anything?

1 curtida

Nothing in that post indicates any specific Bing changes that relate to how they crawl public sites, so suspect not.

7 curtidas

O time do Bing criou recentemente uma nova conta no Twitter para o time de engenharia, e então decidi aproveitar a oportunidade e contar a eles sobre os problemas que o Discourse estava enfrentando com o Bing. Consegui chamar a atenção de duas pessoas do time do Bing, mas preciso de mais assistência de pessoas com mais conhecimento sobre o Discourse. Não sou exatamente um especialista. https://twitter.com/facan/status/1300707035822960641?s=20 https://twitter.com/CoperniX/status/1300511151743066112?s=20 https://twitter.com/CoperniX/status/1300508479447130112?s=20

1 curtida

Obrigado por nos informar, Justin. Sou o Gerente de Programa do Bing responsável pela equipe de rastreamento e indexação do Bing. É triste ver que nosso crawler está aparentemente rastreando demais seu Sistema de Gerenciamento de Conteúdo. Como você mencionou, tivemos problemas e fizemos ajustes. Seu feedback indica que talvez precisemos ajustar ainda mais. Quando começamos a analisar o que está sendo rastreado em seus sites que utilizam seu CMS, como você conhece melhor do que nós, seria ótimo se você pudesse entrar em contato diretamente comigo, compartilhando exemplos de logs para que possamos analisar em detalhes juntos.

A realidade é que você sabe melhor do que nós o que está alterando seus sites… por isso, nestes dias, estamos realmente incentivando sites e Sistemas de Gerenciamento de Conteúdo a adotarem nossa API de envio de URLs Why IndexNow | Bing Webmaster Tools, permitindo indexação em tempo real para conteúdo adicionado, atualizado ou excluído, o que, em última análise, nos permite rastrear apenas o que foi modificado. Lançamos nosso código de código aberto para o WordPress [Bing URL Submissions Plugin – WordPress plugin | WordPress.org], incentivando você a dar uma olhada e integrar… podemos ajudar.

8 curtidas

Não é algo relacionado apenas ao Discourse. O Bing, por padrão, faz crawling de sites de forma muito agressiva, @facan

1 curtida

A equipe do Discourse sabe muito mais sobre isso do que eu. Eu só queria chamar sua atenção para o problema, principalmente na esperança de que a equipe do Discourse assumisse a partir daqui. :slight_smile:

1 curtida

Há um caso de teste claro aqui:

Você pode levar isso aos desenvolvedores e ver se eles conseguem encontrar a origem desse comportamento inadequado?

5 curtidas

Olá, Sam,

Sou o Gerente de Programa responsável pela equipe de rastreamento do Bing. Poderia, por favor, compartilhar o(s) endereço(s) de IP para Topic Stopwatch - #20 by fellowshipforums e Topic Stopwatch… De acordo com nossos registros, não recuperamos esses 2 URLs uma única vez nas últimas 2 semanas.

Obrigado,
Fabrice

1 curtida

Essa informação é muito, muito antiga. O bingbot tem um atraso de rastreamento aqui e em todas as instâncias padrão do Discourse.

Por cortesia, vou removê-lo do meta por 14 dias e tentar verificar se ele realmente está se comportando melhor agora.

12 curtidas

Por curiosidade: temos uma atualização de status aqui?

1 curtida

Ainda em investigação, os resultados devem estar disponíveis em algumas semanas

7 curtidas

Fabrice, testamos isso em alguns sites e o comportamento de rastreamento parece muito mais razoável.

Após a fusão, o limite de taxa padrão será removido.

12 curtidas

Eu já tinha desativado a limitação de taxa no meu próprio site. Que bom ver que isso agora se aplicará a todos os fóruns Discourse sem necessidade de intervenção manual!

1 curtida

Acabei de entrar para dizer que eu e meu colega ficamos felizes ao saber que o bingbot está indexando este site corretamente. Provavelmente, o melhor agora é bloquear este tópico, já que resolvemos seu problema. Não faria sentido permitir mais respostas para algo que já foi solucionado.

7 curtidas