Бот MegaIndex сделал около 4000 просмотров страниц за один день

EricGT · 10.Февраль.2022 22:35:19

К сведению

Для тех, кто следит за показателями просмотров страниц на своих сайтах: 02.07.2022 наш сайт получил около 4000 просмотров от бота MegaIndex.ru. Это явно выделялось.

IAmGav · 10.Февраль.2022 22:59:49

Вы можете либо заблокировать это, либо замедлить.

EricGT · 11.Февраль.2022 01:05:17

Спасибо за информацию.

Я не задавал вопрос, а просто предупреждал других, чтобы они были начеку. Похоже, это новый краулер, который не распределяет свои запросы во времени. Возможно, это был первый раз, когда он обнаружил наш сайт, поэтому он обходит все страницы. Но если он продолжит наносить такие массированные удары, я проведу более глубокое расследование.

codinghorror · 11.Февраль.2022 01:43:09

Спасибо за предупреждение. Эти плохо написанные боты / веб-индексаторы / веб-пауки действительно могут обрушить сервер!

Mr.X_Mr.X · 11.Февраль.2022 05:06:55

Заметил то же самое. Это бот, который генерирует большинство просмотров страниц на моём инстансе, а сразу за ним следуют Seekport (35 тыс. просмотров страниц за день) и mj12bot. Иногда из-за них происходит DoS-атака. Функция защиты от ботов Cloudflare помогла мне ограничить большинство из этих ботов без особого мониторинга.

Jonathan5 · 11.Февраль.2022 08:21:07

Возможно ли замедлить работу всех краулеров — по сути, добавив в robots.txt директиву crawl-delay?

Jagster · 12.Февраль.2022 19:36:06

Нет. Совсем немного следуют robots.txt, и еще меньше соблюдают задержку.

Jonathan5 · 12.Февраль.2022 19:50:43

Жаль. Это была бы хорошая функция для Discourse.

Из любопытства: работает ли существующая система (позволяющая блокировать всех краулеров, но добавлять задержку сканирования только для ограниченного списка) через директивы robots.txt disallow и crawl-delay?

Это совершенно другой вопрос. Хотя, лично я обнаружил, что crawl-delay на другом сайте оказался эффективным.

Jagster · 12.Февраль.2022 19:56:21

Только для «белых» ботов, а их не так уж много. У всех остальных соотношение хороших к плохим составляет примерно 1:100, и неважно, что у вас есть или нет в robots.txt. Лучшие из них , похоже, просто ищут места, куда системный администратор или веб-мастер не хочет показывать доступ, и сразу же следуют этим указаниям.

(На самом деле < grin > ведёт себя как HTML-тег На мой взгляд, Discourse не должен использовать просто < > для этого)

SEO-боты — это действительно плохо ведущие себя боты. Но большинство из них используют поддельные user-agent, созданные скрипт-кидди.

Можно полностью остановить множество ботов, но это нужно делать на уровне сервера, а не на уровне приложения.

Jonathan5 · 12.Февраль.2022 20:00:46

Это уже не важно. Мой опыт был иным, и я хотел бы, чтобы Discourse позволял устанавливать crawl-delay без необходимости указывать отдельных роботов.

Canapin · 02.Март.2022 14:05:02

У меня тоже всплеск краулеров.

Как определить, какой именно краулер (или краулеры) злоупотребляет просмотрами страниц?

codinghorror · 02.Март.2022 22:04:51

Это один из встроенных отчетов на странице отчетов.

Canapin · 02.Март.2022 22:49:03

Спасибо, нашел.

User Agent	Просмотры страниц
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)	5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)	872

Таким образом, эти пики связаны с MJ12bot и Nexus 5X Build, что является легитимным ботом Google, после проверки его IP в логах nginx.

Есть ли идеи, зачем они генерируют такие просмотры страниц? MJ12bot тоже кажется легитимным (по крайней мере, так говорят мои поиски в Google…). Обратите внимание, что форум уже работает, но для просмотра контента требуется вход в систему. Он будет открыт для публики через несколько дней.

Иногда я вижу всплески активности краулеров на своих форумах, но они длятся всего один-два дня, а затем исчезают на долгое время.

Примеры:

Jagster · 02.Март.2022 23:25:04

Проверьте IP-адреса. Это один из самых часто используемых поддельных. К тому же он абсолютно бесполезен для вас, как и все так называемые SEO-боты.

Canapin · 04.Март.2022 13:08:16

Я почти ничего не знаю о краулерах. Разве официальные краулеры Google не полезны для SEO? Извините, если я начинаю уходить от темы.

EricGT · 05.Март.2022 08:19:59

Поскольку именно я создал эту тему, я не считаю ваш вопрос отклонением от неё. Мой пост был просто информативным, а вы лишь пытаетесь лучше понять детали изложенной информации.

Хотя я не являюсь экспертом в области SEO, если вы хотите, чтобы люди находили ваш сайт через поисковые системы, вам необходимо разрешить краулерам поисковых систем обходить ваш сайт для построения и обновления своих индексов.

Проблема в том, что некоторые краулеры не приводят пользователей на сайт. Если это так и вы не хотите чрезмерного количества посещений страниц, вы можете попросить их не обходить ваш сайт, используя файл robots.txt. Однако плохие поисковые системы игнорируют robots.txt, и тогда приходится использовать правила фаервола и подобные методы. Проблема при этом сводится к вечной дилемме: если кто-то хочет получить доступ к открытому сайту (без входа), то заблокировать его сложно, так как они каждый раз меняют свою идентификацию. Если же сделать вход обязательным, это часто сокращает количество людей, готовых зарегистрироваться.

Что касается оригинального поста, то с момента сообщения об этом выбросе я не наблюдал другого резкого однодневного роста просмотров страниц из-за MeagIndex или другого краулера.

EricGT · 13.Август.2022 12:21:49

Обновление: 13.08.2022

Бот снова посетил наш сайт 04.08.2022 (сайт краулера)

Отчёт: Сводные просмотры страниц

Отчёт: User Agents веб-краулеров

Отчёт: Основной источник трафика

Очевидно, что разрешение боту MegaIndex.ru/2.0 индексировать сайт не приводит к росту трафика на сайте.
Примечание: Насколько мне известно, yandex.ru отличается от Megaindex.ru.

Для блокировки краулеров существует файл robots.txt, как отмечено в:

https://<Сайт Discourse>/admin/customize/robots

однако не все краулеры уважают robots.txt.

Как отмечалось выше пользователем IAmGav, существуют и другие настройки для краулеров.

Jagster · 14.Август.2022 17:10:33

robots.txt не предназначен для блокировки ботов. Это руководство для добросовестных ботов. Блокировку следует осуществлять на уровне сервера. Одна из главных причин, почему мой Discourse находится за обратным прокси.

EricGT · 11.Январь.2023 08:51:38

22.12.2022 https://bot.seekport.com — новый для меня неизвестный бот — совершил чрезмерное количество просмотров страниц

kinetiksoft · 11.Январь.2023 12:16:22

Спайки активности полурегулярных краулеров — обычное явление. Мы сами классифицируем их следующим образом:

Регулярные краулеры от легитимных поисковых систем
Нерегулярные краулеры от новых/кастомных поисковых систем
Целевые краулеры от конкурентов или любых других «исследователей», которые могут эффективно использовать ваши данные для своих целей.

По нашему опыту, нет необходимости предпринимать меры защиты от краулинга, если только вы не хотите, чтобы ваша информация использовалась в каких-либо целях, или если вы не сталкиваетесь с серьезной нагрузкой на сервер из-за этого. В конечном счете, если ваш форум/проект является публичным, всегда найдется способ собрать ваши публичные данные для любых целей

Тема		Ответов	Просм.
Pageviews from Anonymous Users have exploded but Google Analytics showed no traffic growth. How to find about where the increase come from? Data & reporting	23	2495	05.01.2021
Has anyone seen the OpenAI web crawler GPTBot visit their site? Community Building	11	2045	23.06.2025
Sudden drop in traffic Community Building	40	4514	15.12.2022
Handling Bingbot Feature	28	7576	20.11.2020
Anonymous views suddenly very high Data & reporting	48	1647	10.12.2025

Бот MegaIndex сделал около 4000 просмотров страниц за один день

Связанные темы