Bingbot não é mais limitado por padrão

sam · Abril 5, 2018, 6:16am

Recently @neil added built-in support for crawler traffic analysis and blocklisting / allowlisting of crawler user-agents.

One thing that immediately popped up is that bing, consistently, across multiple sites is generating significantly more load than any other crawler.

For example on meta we have the following over about a week:

User Agent	Pageviews
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)	183236
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	16117
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)	15959
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/)	9450
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)	5022
Mozilla/5.0 (compatible; DotBot/1.1; `http://www.opensiteexplorer.org/dotbot`, `help@moz.com`)	4498
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)	3976

Bing is crawling meta at more than 10x the rate of any other crawler. Looking at our richer logs the trend is very clear (and also cross checked):

Looking at a geomap we can see the traffic is very likely coming from Microsoft

Looking at specific ips I can see this is indeed coming from Microsoft using reverse IP lookups.

bing has no qualms hitting meta more than 5000 times in a 3 hour period, Google will not spike at over 800 and usually runs much slower.

Following this commit, bing is default throttled to 60 seconds per request:

https://github.com/discourse/discourse/commit/6179c0ce51bc1d9d814a1baae354d68eb491e9fd

You can remove this throttle bing by editing your slow_down_crawler_user_agents, but we don’t recommend it unless you understand the crawler traffic consequences.

We decided to take this measure to protect Discourse sites out there from being attacked by Microsoft crawlers. I have no idea why bing behaves so badly, my theory is that part of the reason it is crawling so aggressively is cause it is constantly trying to re-validate canonical links. In the logs I can see that 3 times a week it will try to figure out what the canonical page is for a post link. So, for example:

Even though we tell bing the canonical for https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 is https://meta.discourse.org/t/topic-stopwatch-theme-component/83939 it does not appear to “trust” us and has to check back 3 times a week.

We have been in contact with Microsoft on this and they are working on it on their end, but resolution is months if not years away, so this is necessary for everyone’s protection in the meantime.

Justin_Vega · Janeiro 5, 2020, 1:50am

Você pode nos dar uma atualização sobre a situação (quase dois anos depois)?

sam · Janeiro 5, 2020, 1:56am

A atualização é que fizemos um grande alvoroço, eles prometeram que as coisas mudariam e nunca mais nos contataram.

Não tenho certeza se há algo mais a fazer aqui, pois respeita o comando de desaceleração, então acho que o problema foi resolvido.

Ainda tenho muita pouca confiança na abordagem de rastreamento que o Bing adota.

Justin_Vega · Janeiro 5, 2020, 2:00am

A Microsoft poderia estar introduzindo um “novo” Bing (ou talvez eu esteja interpretando incorretamente este post do blog). Isso poderia significar algo?

awesomerobot · Janeiro 6, 2020, 4:21pm

Nada naquela postagem indica mudanças específicas do Bing relacionadas à forma como eles rastreiam sites públicos, então duvido que seja.

Justin_Vega · Setembro 1, 2020, 4:22pm

O time do Bing criou recentemente uma nova conta no Twitter para o time de engenharia, e então decidi aproveitar a oportunidade e contar a eles sobre os problemas que o Discourse estava enfrentando com o Bing. Consegui chamar a atenção de duas pessoas do time do Bing, mas preciso de mais assistência de pessoas com mais conhecimento sobre o Discourse. Não sou exatamente um especialista. https://twitter.com/facan/status/1300707035822960641?s=20 https://twitter.com/CoperniX/status/1300511151743066112?s=20 https://twitter.com/CoperniX/status/1300508479447130112?s=20

facan · Setembro 2, 2020, 5:32am

Obrigado por nos informar, Justin. Sou o Gerente de Programa do Bing responsável pela equipe de rastreamento e indexação do Bing. É triste ver que nosso crawler está aparentemente rastreando demais seu Sistema de Gerenciamento de Conteúdo. Como você mencionou, tivemos problemas e fizemos ajustes. Seu feedback indica que talvez precisemos ajustar ainda mais. Quando começamos a analisar o que está sendo rastreado em seus sites que utilizam seu CMS, como você conhece melhor do que nós, seria ótimo se você pudesse entrar em contato diretamente comigo, compartilhando exemplos de logs para que possamos analisar em detalhes juntos.

A realidade é que você sabe melhor do que nós o que está alterando seus sites… por isso, nestes dias, estamos realmente incentivando sites e Sistemas de Gerenciamento de Conteúdo a adotarem nossa API de envio de URLs Why IndexNow | Bing Webmaster Tools, permitindo indexação em tempo real para conteúdo adicionado, atualizado ou excluído, o que, em última análise, nos permite rastrear apenas o que foi modificado. Lançamos nosso código de código aberto para o WordPress [Bing URL Submissions Plugin – WordPress plugin | WordPress.org], incentivando você a dar uma olhada e integrar… podemos ajudar.

Terrapop · Setembro 2, 2020, 8:10am

Não é algo relacionado apenas ao Discourse. O Bing, por padrão, faz crawling de sites de forma muito agressiva, @facan

Justin_Vega · Setembro 2, 2020, 12:19pm

A equipe do Discourse sabe muito mais sobre isso do que eu. Eu só queria chamar sua atenção para o problema, principalmente na esperança de que a equipe do Discourse assumisse a partir daqui.

riking · Setembro 10, 2020, 12:54am

Há um caso de teste claro aqui:

Você pode levar isso aos desenvolvedores e ver se eles conseguem encontrar a origem desse comportamento inadequado?

facan · Setembro 10, 2020, 2:30am

Olá, Sam,

Sou o Gerente de Programa responsável pela equipe de rastreamento do Bing. Poderia, por favor, compartilhar o(s) endereço(s) de IP para Topic Stopwatch - #20 by fellowshipforums e Topic Stopwatch… De acordo com nossos registros, não recuperamos esses 2 URLs uma única vez nas últimas 2 semanas.

Obrigado,
Fabrice

sam · Setembro 10, 2020, 2:41am

Essa informação é muito, muito antiga. O bingbot tem um atraso de rastreamento aqui e em todas as instâncias padrão do Discourse.

Por cortesia, vou removê-lo do meta por 14 dias e tentar verificar se ele realmente está se comportando melhor agora.

TheBestPessimist · Outubro 12, 2020, 4:28am

Por curiosidade: temos uma atualização de status aqui?

sam · Outubro 12, 2020, 4:31am

Ainda em investigação, os resultados devem estar disponíveis em algumas semanas

sam · Outubro 26, 2020, 11:44pm

Fabrice, testamos isso em alguns sites e o comportamento de rastreamento parece muito mais razoável.

Após a fusão, o limite de taxa padrão será removido.

anon23393886 · Novembro 20, 2020, 5:50pm

Eu já tinha desativado a limitação de taxa no meu próprio site. Que bom ver que isso agora se aplicará a todos os fóruns Discourse sem necessidade de intervenção manual!

Frédéric · Novembro 20, 2020, 8:46pm

Acabei de entrar para dizer que eu e meu colega ficamos felizes ao saber que o bingbot está indexando este site corretamente. Provavelmente, o melhor agora é bloquear este tópico, já que resolvemos seu problema. Não faria sentido permitir mais respostas para algo que já foi solucionado.

Tópico		Respostas	Visualizações
Handling Bingbot Feature	28	7583	20 de Novembro de 2020
Bingbot is at it again? General	1	679	19 de Dezembro de 2023
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4779	2 de Dezembro de 2023
Sudden drop in traffic Community Building	40	4557	15 de Dezembro de 2022
Massive traffic drop from Google searches after migrating from myBB Support	31	5835	17 de Março de 2022

Bingbot não é mais limitado por padrão

Tópicos relacionados