Bingbot لم يعد مُخفّضًا افتراضيًا

Recently @neil added built-in support for crawler traffic analysis and blocklisting / allowlisting of crawler user-agents.

One thing that immediately popped up is that bing, consistently, across multiple sites is generating significantly more load than any other crawler.

For example on meta we have the following over about a week:

User Agent Pageviews
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 183236
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 16117
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 15959
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) 9450
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 5022
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) 4498
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 3976

Bing is crawling meta at more than 10x the rate of any other crawler. Looking at our richer logs the trend is very clear (and also cross checked):

Looking at a geomap we can see the traffic is very likely coming from Microsoft

Looking at specific ips I can see this is indeed coming from Microsoft using reverse IP lookups.

bing has no qualms hitting meta more than 5000 times in a 3 hour period, Google will not spike at over 800 and usually runs much slower.

Following this commit, bing is default throttled to 60 seconds per request:

You can remove this throttle bing by editing your slow_down_crawler_user_agents, but we don’t recommend it unless you understand the crawler traffic consequences.

We decided to take this measure to protect Discourse sites out there from being attacked by Microsoft crawlers. I have no idea why bing behaves so badly, my theory is that part of the reason it is crawling so aggressively is cause it is constantly trying to re-validate canonical links. In the logs I can see that 3 times a week it will try to figure out what the canonical page is for a post link. So, for example:

Even though we tell bing the canonical for https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 is https://meta.discourse.org/t/topic-stopwatch-theme-component/83939 it does not appear to “trust” us and has to check back 3 times a week.

We have been in contact with Microsoft on this and they are working on it on their end, but resolution is months if not years away, so this is necessary for everyone’s protection in the meantime.

43 إعجابًا

Are you able to give us an update on the situation (almost two years later)?

إعجاب واحد (1)

The update is that we raised a big commotion, they promised stuff will change and never contacted us since.

Not sure if there is anything more to do here cause it does respect the slow down command so I guess, problem solved.

I still have very low confidence with the crawling approach bing takes.

8 إعجابات

Microsoft could be introducing a “new” Bing (or maybe I’m just reading this blog post incorrectly). Could that mean anything?

إعجاب واحد (1)

Nothing in that post indicates any specific Bing changes that relate to how they crawl public sites, so suspect not.

7 إعجابات

قام فريق بينغ مؤخرًا بإنشاء حساب جديد على تويتر لفريق الهندسة، لذا قررت الاستفادة من ذلك وإبلاغهم بالمشكلات التي يواجهها Discourse مع بينغ. تمكّنت من لفت انتباه شخصين من فريق بينغ، لكنني أحتاج إلى مساعدة إضافية من أشخاص أكثر خبرة في Discourse. فأنا لست خبيرًا تمامًا. https://twitter.com/facan/status/1300707035822960641?s=20 https://twitter.com/CoperniX/status/1300511151743066112?s=20 https://twitter.com/CoperniX/status/1300508479447130112?s=20

إعجاب واحد (1)

شكرًا لك يا جاستن على إبلاغنا. أنا مدير برنامج بينغ المسؤول عن فريق الزحف والفهرسة في بينغ. من المحزن أن نرى أن الزاحف الخاص بنا يقوم بزحف مفرط على نظام إدارة المحتوى الخاص بك، كما ذكرت. واجهنا بعض المشكلات وقمنا بتعديلها، لكن ردود فعلك تشير إلى أننا قد نحتاج إلى إجراء تعديلات إضافية. عندما بدأنا في فحص ما يتم زحفه على مواقع الويب الخاصة بك باستخدام نظام إدارة المحتوى الخاص بك، وكما أنت أعلم أكثر منا، فسيكون من الجيد أن تعود إليّ مباشرةً وتشارك أمثلة على السجلات حتى نتمكن من الغوص في التفاصيل معك.

الحقيقة هي أنك تعرف أكثر منا ما الذي يغير مواقع الويب الخاصة بك… لذا فإننا في هذه الأيام نشجع مواقع الويب وأنظمة إدارة المحتوى على تبني واجهة برمجة التطبيقات الخاصة بتسليم عناوين URL الخاصة بنا Bing Webmaster Tools مما يتيح الفهرسة في الوقت الفعلي للمحتوى المضاف والمحدث والمحذوف… مما يسمح لنا في النهاية بزحف المحتوى الذي تم تعديله فقط. لقد قمنا بفتح كودنا المصدري الخاص بووردبريس [Bing URL Submissions Plugin – WordPress plugin | WordPress.org] ونشجعك على إلقاء نظرة عليه ودمجه… يمكننا مساعدتك.

8 إعجابات

ليس الأمر مرتبطًا فقط بـ Discourse، فـ Bing يقوم بشكل افتراضي بجمع بيانات المواقع الإلكترونية بطريقة عدوانية للغاية @facan

إعجاب واحد (1)

فريق Discourse يعرف الكثير جدًا عن هذا الأمر أكثر مما أعرفه أنا. أردت فقط لفت انتباهكم إلى هذه المسألة، على أمل أن يتولى فريق Discourse الأمر من هنا. :slight_smile:

إعجاب واحد (1)

هنا حالة اختبار واضحة:

هل يمكنك نقل هذا إلى المطورين ورؤية ما إذا كانوا يستطيعون العثور على مصدر السلوك السيئ؟

5 إعجابات

أهلاً وسهلاً سام،

أنا مدير البرنامج المسؤول عن فريق الزحف في Bing. هل يمكنك مشاركة عنوان (عناوين) IP الخاص بـ Topic Stopwatch - #20 by fellowshipforums و Topic Stopwatch…؟ وفقاً لسجلاتنا، لم نقم بجلب هذين الرابطين مرة واحدة خلال الأسبوعين الماضيين.

شكراً لك،
فابريس

إعجاب واحد (1)

هذه معلومات قديمة جدًا، حيث يحتوي Bingbot على تأخير في الزحف هنا وعلى جميع نسخ Discourse الافتراضية.

ولأدب، سأقوم بإزالته من قسم Meta لمدة 14 يومًا، وسأحاول تحديد ما إذا كان يتصرف بشكل أفضل الآن بالفعل.

12 إعجابًا

فضولاً: هل لدينا تحديث للحالة هنا؟

إعجاب واحد (1)

لا تزال قيد التحقيق، ومن المتوقع توفر النتائج خلال بضعة أسابيع

7 إعجابات

فابريس، اختبرنا هذا على بعض المواقع، ويبدو أن سلوك الزحف أكثر معقولية بكثير.

بعد دمج هذا، سيتم إزالة الحد الافتراضي للسرعة.

12 إعجابًا

لقد قمت بالفعل بتعطيل تحديد المعدل على موقعي الخاص. يسعدني أن أرى أن هذا سيُطبَّق الآن على جميع منتديات Discourse دون الحاجة إلى تدخل يدوي!

إعجاب واحد (1)

انضممت للتو لأقول إن زميلي وأنا سعداء لسماع أن Bingbot يفهرس هذا الموقع بشكل صحيح. من الأفضل على الأرجح قفل هذا الموضوع الآن بعد أن حللنا مشكلتك. لا معنى للسماح بمزيد من الردود على شيء تم حله بالفعل.

7 إعجابات