Bingbot is (no longer) default throttled

Recently @neil added built-in support for crawler traffic analysis and blocklisting / allowlisting of crawler user-agents.

One thing that immediately popped up is that bing, consistently, across multiple sites is generating significantly more load than any other crawler.

For example on meta we have the following over about a week:

User Agent Pageviews
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 183236
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 16117
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 15959
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/) 9450
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 5022
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com) 4498
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 3976

Bing is crawling meta at more than 10x the rate of any other crawler. Looking at our richer logs the trend is very clear (and also cross checked):

Looking at a geomap we can see the traffic is very likely coming from Microsoft

Looking at specific ips I can see this is indeed coming from Microsoft using reverse IP lookups.

bing has no qualms hitting meta more than 5000 times in a 3 hour period, Google will not spike at over 800 and usually runs much slower.

Following this commit, bing is default throttled to 60 seconds per request:

You can remove this throttle bing by editing your slow_down_crawler_user_agents, but we don’t recommend it unless you understand the crawler traffic consequences.

We decided to take this measure to protect Discourse sites out there from being attacked by Microsoft crawlers. I have no idea why bing behaves so badly, my theory is that part of the reason it is crawling so aggressively is cause it is constantly trying to re-validate canonical links. In the logs I can see that 3 times a week it will try to figure out what the canonical page is for a post link. So, for example:

Even though we tell bing the canonical for https://meta.discourse.org/t/topic-stopwatch-theme-component/83939/20 is https://meta.discourse.org/t/topic-stopwatch-theme-component/83939 it does not appear to “trust” us and has to check back 3 times a week.

We have been in contact with Microsoft on this and they are working on it on their end, but resolution is months if not years away, so this is necessary for everyone’s protection in the meantime.

43 лайка

Можете ли вы предоставить нам обновление по ситуации (прошло почти два года)?

1 лайк

Обновление заключается в том, что мы подняли большой шум, они пообещали, что всё изменится, и с тех пор больше не выходили с нами на связь.

Не уверен, есть ли что-то ещё, что можно сделать, поскольку это действительно учитывает команду замедления, так что, полагаю, проблема решена.

У меня всё ещё очень низкое доверие к подходу Bing к краулингу.

8 лайков

Microsoft может представить «новый» Bing (или, возможно, я неправильно прочитал этот пост в блоге). Может ли это что-то означать?

1 лайк

В том посте ничего не указывает на какие-либо конкретные изменения в Bing, касающиеся того, как они сканируют публичные сайты, поэтому, скорее всего, нет.

7 лайков

Команда Bing недавно создала новый аккаунт в Twitter для инженерной группы, и я решил воспользоваться этим, чтобы рассказать им о проблемах, с которыми Discourse сталкивается в Bing. Мне удалось привлечь внимание двух сотрудников команды Bing, но мне нужна дальнейшая помощь от людей, более компетентных в вопросах Discourse. Я не являюсь экспертом. https://twitter.com/facan/status/1300707035822960641?s=20 https://twitter.com/CoperniX/status/1300511151743066112?s=20 https://twitter.com/CoperniX/status/1300508479447130112?s=20

1 лайк

Спасибо, что сообщили нам об этом, Джастин. Я менеджер программы Bing, отвечающий за команду по сканированию и индексации в Bing. Мне жаль, что наш сканер, похоже, слишком активно сканирует вашу систему управления контентом. Как вы и отметили, у нас были проблемы, и мы их скорректировали. Однако ваш отзыв говорит о том, что, возможно, потребуется дальнейшая корректировка. Когда мы начали анализировать, что именно сканируется на ваших веб-сайтах с использованием вашей CMS, как вы, безусловно, лучше нас знаете, было бы здорово, если бы вы могли обратиться ко мне напрямую и предоставить примеры логов, чтобы мы могли вместе детально разобраться в ситуации.

Дело в том, что вы лучше нас знаете, что вызывает изменения на ваших веб-сайтах. Поэтому в последнее время мы настоятельно рекомендуем веб-сайтам и системам управления контентом использовать наш API для отправки URL-адресов: Why IndexNow | Bing Webmaster Tools. Это обеспечивает индексацию в реальном времени для добавленного, обновленного и удаленного контента, что в конечном итоге позволяет нам сканировать только то, что было изменено. Мы открыли исходный код нашего плагина для WordPress: [Bing URL Submissions Plugin – WordPress plugin | WordPress.org]. Мы рекомендуем вам ознакомиться с ним и интегрировать его. Мы готовы помочь.

8 лайков

Это не совсем только связано с Discourse, Bing по умолчанию очень агрессивно сканирует сайты @facan

1 лайк

Команда Discourse знает об этом гораздо больше, чем я. Я лишь хотел обратить ваше внимание на эту проблему, в основном надеясь, что команда Discourse продолжит работу над ней. :slight_smile:

1 лайк

Здесь есть очевидный тестовый случай:

Можете ли вы обратиться к разработчикам и узнать, смогут ли они найти источник этого некорректного поведения?

5 лайков

Добрый день, Сэм,

Я менеджер программы, отвечающий за команду Bing за сбор данных. Не могли бы вы предоставить IP-адреса для Topic Stopwatch - #20 by fellowshipforums и Topic Stopwatch… Согласно нашим логам, мы не запрашивали эти два URL-адреса за последние две недели.

Спасибо,
Фабрис

1 лайк

Это очень-очень устаревшая информация. У bingbot установлен задерживающий интервал для обхода как здесь, так и на всех стандартных экземплярах Discourse.

Из вежливости я удалю это сообщение из раздела meta на 14 дней и постараюсь выяснить, действительно ли ситуация улучшилась.

12 лайков

Из любопытства: есть ли у нас обновление статуса здесь?

1 лайк

Расследование ещё продолжается, результаты должны быть готовы через пару недель

7 лайков

Фабрис, мы протестировали это на нескольких сайтах, и поведение краулинга выглядит гораздо более разумным.

После того как это будет объединено, ограничение по умолчанию будет удалено.

12 лайков

У меня на собственном сайте отключение ограничения скорости уже было включено. Приятно видеть, что теперь это будет применяться ко всем форумам Discourse без необходимости ручного вмешательства!

1 лайк

Только что зарегистрировался, чтобы сказать, что мой коллега и я рады слышать, что bingbot правильно индексирует этот сайт. Вероятно, лучше закрыть эту тему, так как мы решили вашу проблему. Не имеет смысла разрешать новые ответы на тему, которая уже решена.

7 лайков