Бот MegaIndex сделал около 4000 просмотров страниц за один день

К сведению

Для тех, кто следит за показателями просмотров страниц на своих сайтах: 02.07.2022 наш сайт получил около 4000 просмотров от бота MegaIndex.ru. Это явно выделялось.

7 лайков

Вы можете либо заблокировать это, либо замедлить.

5 лайков

Спасибо за информацию.

Я не задавал вопрос, а просто предупреждал других, чтобы они были начеку. Похоже, это новый краулер, который не распределяет свои запросы во времени. Возможно, это был первый раз, когда он обнаружил наш сайт, поэтому он обходит все страницы. Но если он продолжит наносить такие массированные удары, я проведу более глубокое расследование.

4 лайка

Спасибо за предупреждение. Эти плохо написанные боты / веб-индексаторы / веб-пауки действительно могут обрушить сервер!

13 лайков

Заметил то же самое. Это бот, который генерирует большинство просмотров страниц на моём инстансе, а сразу за ним следуют Seekport (35 тыс. просмотров страниц за день) и mj12bot. Иногда из-за них происходит DoS-атака. Функция защиты от ботов Cloudflare помогла мне ограничить большинство из этих ботов без особого мониторинга.

5 лайков

Возможно ли замедлить работу всех краулеров — по сути, добавив в robots.txt директиву crawl-delay?

2 лайка

Нет. Совсем немного следуют robots.txt, и еще меньше соблюдают задержку.

2 лайка

Жаль. Это была бы хорошая функция для Discourse.

Из любопытства: работает ли существующая система (позволяющая блокировать всех краулеров, но добавлять задержку сканирования только для ограниченного списка) через директивы robots.txt disallow и crawl-delay?

Это совершенно другой вопрос. Хотя, лично я обнаружил, что crawl-delay на другом сайте оказался эффективным.

2 лайка

Только для «белых» ботов, а их не так уж много. У всех остальных соотношение хороших к плохим составляет примерно 1:100, и неважно, что у вас есть или нет в robots.txt. Лучшие из них , похоже, просто ищут места, куда системный администратор или веб-мастер не хочет показывать доступ, и сразу же следуют этим указаниям.

(На самом деле < grin > ведёт себя как HTML-тег :thinking: На мой взгляд, Discourse не должен использовать просто < > для этого)

SEO-боты — это действительно плохо ведущие себя боты. Но большинство из них используют поддельные user-agent, созданные скрипт-кидди.

Можно полностью остановить множество ботов, но это нужно делать на уровне сервера, а не на уровне приложения.

2 лайка

Это уже не важно. Мой опыт был иным, и я хотел бы, чтобы Discourse позволял устанавливать crawl-delay без необходимости указывать отдельных роботов.

2 лайка

У меня тоже всплеск краулеров.

Как определить, какой именно краулер (или краулеры) злоупотребляет просмотрами страниц?

4 лайка

Это один из встроенных отчетов на странице отчетов.

3 лайка

Спасибо, нашел.

​ User Agent ​ Просмотры страниц
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) 5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) 872

Таким образом, эти пики связаны с MJ12bot и Nexus 5X Build, что является легитимным ботом Google, после проверки его IP в логах nginx.

Есть ли идеи, зачем они генерируют такие просмотры страниц? MJ12bot тоже кажется легитимным (по крайней мере, так говорят мои поиски в Google…). Обратите внимание, что форум уже работает, но для просмотра контента требуется вход в систему. Он будет открыт для публики через несколько дней.

Иногда я вижу всплески активности краулеров на своих форумах, но они длятся всего один-два дня, а затем исчезают на долгое время.

Примеры:

3 лайка

Проверьте IP-адреса. Это один из самых часто используемых поддельных. К тому же он абсолютно бесполезен для вас, как и все так называемые SEO-боты.

3 лайка

Я почти ничего не знаю о краулерах. Разве официальные краулеры Google не полезны для SEO? Извините, если я начинаю уходить от темы.

3 лайка

Поскольку именно я создал эту тему, я не считаю ваш вопрос отклонением от неё. Мой пост был просто информативным, а вы лишь пытаетесь лучше понять детали изложенной информации.

Хотя я не являюсь экспертом в области SEO, если вы хотите, чтобы люди находили ваш сайт через поисковые системы, вам необходимо разрешить краулерам поисковых систем обходить ваш сайт для построения и обновления своих индексов.

Проблема в том, что некоторые краулеры не приводят пользователей на сайт. Если это так и вы не хотите чрезмерного количества посещений страниц, вы можете попросить их не обходить ваш сайт, используя файл robots.txt. Однако плохие поисковые системы игнорируют robots.txt, и тогда приходится использовать правила фаервола и подобные методы. Проблема при этом сводится к вечной дилемме: если кто-то хочет получить доступ к открытому сайту (без входа), то заблокировать его сложно, так как они каждый раз меняют свою идентификацию. Если же сделать вход обязательным, это часто сокращает количество людей, готовых зарегистрироваться.

Что касается оригинального поста, то с момента сообщения об этом выбросе я не наблюдал другого резкого однодневного роста просмотров страниц из-за MeagIndex или другого краулера.

2 лайка

Обновление: 13.08.2022

Бот снова посетил наш сайт 04.08.2022 (сайт краулера)

Отчёт: Сводные просмотры страниц

Отчёт: User Agents веб-краулеров

Отчёт: Основной источник трафика

Очевидно, что разрешение боту MegaIndex.ru/2.0 индексировать сайт не приводит к росту трафика на сайте.
Примечание: Насколько мне известно, yandex.ru отличается от Megaindex.ru.


Для блокировки краулеров существует файл robots.txt, как отмечено в:

https://<Сайт Discourse>/admin/customize/robots

однако не все краулеры уважают robots.txt. :slightly_frowning_face:


Как отмечалось выше пользователем IAmGav, существуют и другие настройки для краулеров.

4 лайка

robots.txt не предназначен для блокировки ботов. Это руководство для добросовестных ботов. Блокировку следует осуществлять на уровне сервера. Одна из главных причин, почему мой Discourse находится за обратным прокси.

4 лайка

22.12.2022 https://bot.seekport.com — новый для меня неизвестный бот — совершил чрезмерное количество просмотров страниц

2 лайка

Спайки активности полурегулярных краулеров — обычное явление. Мы сами классифицируем их следующим образом:

  • Регулярные краулеры от легитимных поисковых систем
  • Нерегулярные краулеры от новых/кастомных поисковых систем
  • Целевые краулеры от конкурентов или любых других «исследователей», которые могут эффективно использовать ваши данные для своих целей.

По нашему опыту, нет необходимости предпринимать меры защиты от краулинга, если только вы не хотите, чтобы ваша информация использовалась в каких-либо целях, или если вы не сталкиваетесь с серьезной нагрузкой на сервер из-за этого. В конечном счете, если ваш форум/проект является публичным, всегда найдется способ собрать ваши публичные данные для любых целей :slight_smile:

3 лайка