Bingbot non è più (di default) limitato

sam · 5 Aprile 2018, 6:16am

Recently @neil added built-in support for crawler traffic analysis and blocklisting / allowlisting of crawler user-agents.

One thing that immediately popped up is that bing, consistently, across multiple sites is generating significantly more load than any other crawler.

For example on meta we have the following over about a week:

User Agent	Pageviews
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)	183236
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	16117
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)	15959
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/)	9450
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)	5022
Mozilla/5.0 (compatible; DotBot/1.1; `http://www.opensiteexplorer.org/dotbot`, `help@moz.com`)	4498
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)	3976

Bing is crawling meta at more than 10x the rate of any other crawler. Looking at our richer logs the trend is very clear (and also cross checked):

Looking at a geomap we can see the traffic is very likely coming from Microsoft

Looking at specific ips I can see this is indeed coming from Microsoft using reverse IP lookups.

bing has no qualms hitting meta more than 5000 times in a 3 hour period, Google will not spike at over 800 and usually runs much slower.

Following this commit, bing is default throttled to 60 seconds per request:

https://github.com/discourse/discourse/commit/6179c0ce51bc1d9d814a1baae354d68eb491e9fd

You can remove this throttle bing by editing your slow_down_crawler_user_agents, but we don’t recommend it unless you understand the crawler traffic consequences.

We decided to take this measure to protect Discourse sites out there from being attacked by Microsoft crawlers. I have no idea why bing behaves so badly, my theory is that part of the reason it is crawling so aggressively is cause it is constantly trying to re-validate canonical links. In the logs I can see that 3 times a week it will try to figure out what the canonical page is for a post link. So, for example:

Even though we tell bing the canonical for https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 is https://meta.discourse.org/t/topic-stopwatch-theme-component/83939 it does not appear to “trust” us and has to check back 3 times a week.

We have been in contact with Microsoft on this and they are working on it on their end, but resolution is months if not years away, so this is necessary for everyone’s protection in the meantime.

Justin_Vega · 5 Gennaio 2020, 1:50am

Potreste darci un aggiornamento sulla situazione (quasi due anni dopo)?

sam · 5 Gennaio 2020, 1:56am

L’aggiornamento è che abbiamo sollevato un gran polverone, hanno promesso che le cose sarebbero cambiate e non ci hanno più contattati da allora.

Non sono sicuro ci sia altro da fare qui, dato che rispetta il comando di rallentamento, quindi immagino che il problema sia risolto.

Ho ancora molta poca fiducia nell’approccio di crawling adottato da Bing.

Justin_Vega · 5 Gennaio 2020, 2:00am

Microsoft potrebbe introdurre un “nuovo” Bing (o forse sto leggendo male questo post del blog). Potrebbe significare qualcosa?

awesomerobot · 6 Gennaio 2020, 4:21pm

Nulla in quel post indica specifiche modifiche di Bing relative al modo in cui vengono scansionati i siti pubblici, quindi si sospetta di no.

Justin_Vega · 1 Settembre 2020, 4:22pm

Il team di Bing ha recentemente creato un nuovo account Twitter dedicato al team di ingegneria, così ho deciso di approfittarne per parlar loro dei problemi che Discourse stava riscontrando con Bing. Sono riuscito ad attirare l’attenzione di due persone del team di Bing, ma ho bisogno di ulteriore assistenza da parte di esperti più esperti di Discourse. Non sono esattamente un esperto. https://twitter.com/facan/status/1300707035822960641?s=20 https://twitter.com/CoperniX/status/1300511151743066112?s=20 https://twitter.com/CoperniX/status/1300508479447130112?s=20

facan · 2 Settembre 2020, 5:32am

Grazie per avercelo fatto sapere, Justin. Sono il Product Manager di Bing responsabile del team di crawling e indicizzazione di Bing. Mi dispiace vedere che il nostro crawler sta apparentemente scansionando troppo il tuo sistema di gestione dei contenuti. Come hai detto, abbiamo avuto dei problemi e li abbiamo corretti. Il tuo feedback ci indica che potrebbe essere necessario apportare ulteriori aggiustamenti. Quando abbiamo iniziato a esaminare cosa veniva scansionato sui tuoi siti web sfruttando il tuo CMS, sapendo che ne sai più di noi, sarebbe utile se potessi contattarmi direttamente condividendo esempi di log su cui possiamo approfondire insieme.

La realtà è che sai più di noi cosa modifica i tuoi siti web… quindi in questi giorni stiamo incoraggiando vivamente i siti web e i sistemi di gestione dei contenuti ad adottare la nostra API di invio degli URL Why IndexNow | Bing Webmaster Tools, che consente un’indicizzazione in tempo reale per contenuti aggiunti, aggiornati o eliminati, permettendoci infine di scansionare solo ciò che è stato modificato. Abbiamo reso open source il nostro codice per Wordpress [Bing URL Submissions Plugin – WordPress plugin | WordPress.org] e ti invitiamo a darci un’occhiata e integrarlo… possiamo aiutarti.

Terrapop · 2 Settembre 2020, 8:10am

Non è davvero solo legato a Discourse, Bing di default è molto aggressivo nel crawlare i siti web @facan

Justin_Vega · 2 Settembre 2020, 12:19pm

Il team di Discourse ne sa molto di più su questo argomento rispetto a me. Volevo solo attirare la vostra attenzione sul problema, soprattutto nella speranza che il team di Discourse se ne occupi da qui in poi.

riking · 10 Settembre 2020, 12:54am

C’è un caso di test chiaro qui:

Puoi provare a portarlo agli sviluppatori e vedere se riescono a trovare la causa di questo comportamento errato?

facan · 10 Settembre 2020, 2:30am

Buongiorno Sam,

sono il Program Manager del team di crawling di Bing. Potresti condividere gli indirizzi IP per Topic Stopwatch - #20 by fellowshipforums e Topic Stopwatch… Secondo i nostri log, non abbiamo recuperato questi due URL nelle ultime due settimane.

Grazie,
Fabrice

sam · 10 Settembre 2020, 2:41am

Quelle sono informazioni molto molto vecchie: bingbot ha un ritardo di scansione qui e su tutte le istanze Discourse predefinite.

Per cortesia, lo rimuoverò da meta per 14 giorni e cercherò di capire se ora si comporta effettivamente in modo più corretto.

TheBestPessimist · 12 Ottobre 2020, 4:28am

Per pura curiosità: abbiamo un aggiornamento sullo stato qui?

sam · 12 Ottobre 2020, 4:31am

Ancora in fase di indagine, i risultati dovrebbero essere disponibili tra un paio di settimane

sam · 26 Ottobre 2020, 11:44pm

Fabrice, abbiamo testato questo su alcuni siti e il comportamento di crawling sembra molto più ragionevole.

Dopo che questo sarà unito, il throttling predefinito verrà rimosso.

anon23393886 · 20 Novembre 2020, 5:50pm

Avevo già disabilitato il throttling sul mio sito. Sono contento di vedere che ora questo si applicherà a tutti i forum Discourse senza alcuna intervento manuale!

Frédéric · 20 Novembre 2020, 8:46pm

Mi sono appena iscritto per dire che io e il mio collega siamo felici di sapere che bingbot sta indicizzando correttamente questo sito. Probabilmente è meglio bloccare questa discussione ora che abbiamo risolto il vostro problema. Non avrebbe senso permettere ulteriori risposte per qualcosa che è già stato risolto.

Argomento		Risposte	Visualizzazioni
Handling Bingbot Feature	28	7586	Novembre 20, 2020
Bingbot is at it again? General	1	680	Dicembre 19, 2023
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4779	Dicembre 2, 2023
Sudden drop in traffic Community Building	40	4570	Dicembre 15, 2022
Massive traffic drop from Google searches after migrating from myBB Support	31	5838	Marzo 17, 2022

Bingbot non è più (di default) limitato

Argomenti correlati