Bingbot ist (nicht mehr) standardmäßig gedrosselt

Recently @neil added built-in support for crawler traffic analysis and blocklisting / allowlisting of crawler user-agents.

One thing that immediately popped up is that bing, consistently, across multiple sites is generating significantly more load than any other crawler.

For example on meta we have the following over about a week:

User Agent Pageviews
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 183236
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 16117
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 15959
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) 9450
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 5022
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) 4498
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 3976

Bing is crawling meta at more than 10x the rate of any other crawler. Looking at our richer logs the trend is very clear (and also cross checked):

Looking at a geomap we can see the traffic is very likely coming from Microsoft

Looking at specific ips I can see this is indeed coming from Microsoft using reverse IP lookups.

bing has no qualms hitting meta more than 5000 times in a 3 hour period, Google will not spike at over 800 and usually runs much slower.

Following this commit, bing is default throttled to 60 seconds per request:

You can remove this throttle bing by editing your slow_down_crawler_user_agents, but we don’t recommend it unless you understand the crawler traffic consequences.

We decided to take this measure to protect Discourse sites out there from being attacked by Microsoft crawlers. I have no idea why bing behaves so badly, my theory is that part of the reason it is crawling so aggressively is cause it is constantly trying to re-validate canonical links. In the logs I can see that 3 times a week it will try to figure out what the canonical page is for a post link. So, for example:

Even though we tell bing the canonical for https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 is https://meta.discourse.org/t/topic-stopwatch-theme-component/83939 it does not appear to “trust” us and has to check back 3 times a week.

We have been in contact with Microsoft on this and they are working on it on their end, but resolution is months if not years away, so this is necessary for everyone’s protection in the meantime.

43 „Gefällt mir“

Are you able to give us an update on the situation (almost two years later)?

1 „Gefällt mir“

The update is that we raised a big commotion, they promised stuff will change and never contacted us since.

Not sure if there is anything more to do here cause it does respect the slow down command so I guess, problem solved.

I still have very low confidence with the crawling approach bing takes.

8 „Gefällt mir“

Microsoft could be introducing a “new” Bing (or maybe I’m just reading this blog post incorrectly). Could that mean anything?

1 „Gefällt mir“

Nothing in that post indicates any specific Bing changes that relate to how they crawl public sites, so suspect not.

7 „Gefällt mir“

Das Bing-Team hat kürzlich einen neuen Twitter-Account für das Engineering-Team erstellt, und ich habe dies genutzt, um sie über die Probleme zu informieren, die Discourse mit Bing hatte. Ich konnte zwei Personen im Bing-Team aufmerksam machen, benötige jedoch weitere Unterstützung von Personen, die sich besser mit Discourse auskennen. Ich bin nämlich kein Experte. https://twitter.com/facan/status/1300707035822960641?s=20 https://twitter.com/CoperniX/status/1300511151743066112?s=20 https://twitter.com/CoperniX/status/1300508479447130112?s=20

1 „Gefällt mir“

Danke, dass Sie uns Bescheid gegeben haben, Justin. Ich bin der Bing-Programmmanager, der für das Bing-Crawling- und Indizierungsteam verantwortlich ist. Es ist bedauerlich, dass unser Crawler scheinbar zu viel auf Ihrem Content-Management-System (CMS) crawlt. Wie Sie bereits erwähnt haben, hatten wir Probleme und haben Anpassungen vorgenommen. Ihr Feedback zeigt uns jedoch, dass wir möglicherweise weitere Anpassungen vornehmen müssen. Wenn wir uns ansehen, was auf Ihren Websites, die Ihr CMS nutzen, gecrawlt wird – und Sie kennen sich damit besser aus als wir –, wäre es hilfreich, wenn Sie mir direkt Beispiele aus den Logs zukommen lassen könnten, damit wir gemeinsam eine tiefgehende Analyse durchführen können.

Die Realität ist, dass Sie besser als wir wissen, was auf Ihren Websites Änderungen bewirkt. Deshalb ermutigen wir Websites und Content-Management-Systeme derzeit dringend, unsere URL-Einreichungs-API zu nutzen: Why IndexNow | Bing Webmaster Tools. Diese ermöglicht eine Echtzeit-Indizierung für hinzugefügten, aktualisierten oder gelöschten Inhalt und erlaubt es uns letztendlich, nur die tatsächlich geänderten Inhalte zu crawlen. Wir haben unseren Quellcode für WordPress als Open Source verfügbar gemacht: [Bing URL Submissions Plugin – WordPress plugin | WordPress.org]. Wir hoffen, dass Sie sich das ansehen und integrieren – wir können Sie dabei unterstützen.

8 „Gefällt mir“

Es geht nicht wirklich nur um Discourse. Bing durchsucht Websites standardmäßig sehr aggressiv, @facan.

1 „Gefällt mir“

Das Discourse-Team weiß dazu viel mehr als ich. Ich wollte nur auf das Problem aufmerksam machen, hauptsächlich in der Hoffnung, dass das Discourse-Team es von hier aus weiterverfolgen wird. :slight_smile:

1 „Gefällt mir“

Hier gibt es einen klaren Testfall:

[quote=“sam, post:1, topic:84620”]
Obwohl wir Bing für https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 die kanonische URL https://meta.discourse.org/t/topic-stopwatch-theme-component/83939 mitteilen, scheint es uns nicht zu „vertrauen

5 „Gefällt mir“

Guten Tag Sam,

ich bin der Programmmanager des Bing-Crawling-Teams. Könnten Sie bitte die IP-Adresse(n) für Topic Stopwatch - #20 by fellowshipforums und Topic Stopwatch… mitteilen? Laut unseren Logs haben wir diese beiden URLs in den letzten zwei Wochen noch nie abgerufen.

Vielen Dank,
Fabrice

1 „Gefällt mir“

Das sind sehr, sehr alte Informationen. Bingbot hat hier und bei allen standardmäßigen Discourse-Instanzen eine Crawling-Verzögerung eingestellt.

Aus Höflichkeit werde ich den Eintrag für 14 Tage aus dem Meta-Bereich entfernen und versuchen herauszufinden, ob er sich tatsächlich jetzt besser verhält.

12 „Gefällt mir“

Aus Neugier: Gibt es hier ein Status-Update?

1 „Gefällt mir“

Noch in Untersuchung, die Ergebnisse sollten in ein paar Wochen vorliegen

7 „Gefällt mir“

Fabrice, wir haben dies auf einigen Websites getestet, und das Crawling-Verhalten scheint deutlich vernünftiger zu sein.

Nachdem dies zusammengeführt wurde, wird die Standard-Drosselung entfernt.

12 „Gefällt mir“

Ich hatte die Drosselung auf meiner eigenen Website bereits deaktiviert. Schön zu sehen, dass dies nun für alle Discourse-Foren ohne manuelle Eingriffe gilt!

1 „Gefällt mir“

Ich habe mich nur angemeldet, um zu sagen, dass mein Kollege und ich froh sind zu hören, dass Bingbot diese Seite korrekt indiziert. Wahrscheinlich ist es am besten, diesen Thread jetzt zu sperren, da wir Ihr Problem gelöst haben. Es ergibt keinen Sinn, weitere Antworten auf etwas zuzulassen, das bereits gelöst ist.

7 „Gefällt mir“