К сведению
Для тех, кто следит за показателями просмотров страниц на своих сайтах: 02.07.2022 наш сайт получил около 4000 просмотров от бота MegaIndex.ru. Это явно выделялось.
К сведению
Для тех, кто следит за показателями просмотров страниц на своих сайтах: 02.07.2022 наш сайт получил около 4000 просмотров от бота MegaIndex.ru. Это явно выделялось.
Спасибо за информацию.
Я не задавал вопрос, а просто предупреждал других, чтобы они были начеку. Похоже, это новый краулер, который не распределяет свои запросы во времени. Возможно, это был первый раз, когда он обнаружил наш сайт, поэтому он обходит все страницы. Но если он продолжит наносить такие массированные удары, я проведу более глубокое расследование.
Спасибо за предупреждение. Эти плохо написанные боты / веб-индексаторы / веб-пауки действительно могут обрушить сервер!
Заметил то же самое. Это бот, который генерирует большинство просмотров страниц на моём инстансе, а сразу за ним следуют Seekport (35 тыс. просмотров страниц за день) и mj12bot. Иногда из-за них происходит DoS-атака. Функция защиты от ботов Cloudflare помогла мне ограничить большинство из этих ботов без особого мониторинга.
Возможно ли замедлить работу всех краулеров — по сути, добавив в robots.txt директиву crawl-delay?
Нет. Совсем немного следуют robots.txt, и еще меньше соблюдают задержку.
Жаль. Это была бы хорошая функция для Discourse.
Из любопытства: работает ли существующая система (позволяющая блокировать всех краулеров, но добавлять задержку сканирования только для ограниченного списка) через директивы robots.txt disallow и crawl-delay?
Это совершенно другой вопрос. Хотя, лично я обнаружил, что crawl-delay на другом сайте оказался эффективным.
Только для «белых» ботов, а их не так уж много. У всех остальных соотношение хороших к плохим составляет примерно 1:100, и неважно, что у вас есть или нет в robots.txt. Лучшие из них , похоже, просто ищут места, куда системный администратор или веб-мастер не хочет показывать доступ, и сразу же следуют этим указаниям.
(На самом деле < grin > ведёт себя как HTML-тег
На мой взгляд, Discourse не должен использовать просто < > для этого)
SEO-боты — это действительно плохо ведущие себя боты. Но большинство из них используют поддельные user-agent, созданные скрипт-кидди.
Можно полностью остановить множество ботов, но это нужно делать на уровне сервера, а не на уровне приложения.
Это уже не важно. Мой опыт был иным, и я хотел бы, чтобы Discourse позволял устанавливать crawl-delay без необходимости указывать отдельных роботов.
У меня тоже всплеск краулеров.
Как определить, какой именно краулер (или краулеры) злоупотребляет просмотрами страниц?
Это один из встроенных отчетов на странице отчетов.
Спасибо, нашел.
| User Agent | Просмотры страниц |
|---|---|
| Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 5514 |
| Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) | 5212 |
| Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 1427 |
| Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) | 872 |
Таким образом, эти пики связаны с MJ12bot и Nexus 5X Build, что является легитимным ботом Google, после проверки его IP в логах nginx.
Есть ли идеи, зачем они генерируют такие просмотры страниц? MJ12bot тоже кажется легитимным (по крайней мере, так говорят мои поиски в Google…). Обратите внимание, что форум уже работает, но для просмотра контента требуется вход в систему. Он будет открыт для публики через несколько дней.
Иногда я вижу всплески активности краулеров на своих форумах, но они длятся всего один-два дня, а затем исчезают на долгое время.
Примеры:
Проверьте IP-адреса. Это один из самых часто используемых поддельных. К тому же он абсолютно бесполезен для вас, как и все так называемые SEO-боты.
Я почти ничего не знаю о краулерах. Разве официальные краулеры Google не полезны для SEO? Извините, если я начинаю уходить от темы.
Поскольку именно я создал эту тему, я не считаю ваш вопрос отклонением от неё. Мой пост был просто информативным, а вы лишь пытаетесь лучше понять детали изложенной информации.
Хотя я не являюсь экспертом в области SEO, если вы хотите, чтобы люди находили ваш сайт через поисковые системы, вам необходимо разрешить краулерам поисковых систем обходить ваш сайт для построения и обновления своих индексов.
Проблема в том, что некоторые краулеры не приводят пользователей на сайт. Если это так и вы не хотите чрезмерного количества посещений страниц, вы можете попросить их не обходить ваш сайт, используя файл robots.txt. Однако плохие поисковые системы игнорируют robots.txt, и тогда приходится использовать правила фаервола и подобные методы. Проблема при этом сводится к вечной дилемме: если кто-то хочет получить доступ к открытому сайту (без входа), то заблокировать его сложно, так как они каждый раз меняют свою идентификацию. Если же сделать вход обязательным, это часто сокращает количество людей, готовых зарегистрироваться.
Что касается оригинального поста, то с момента сообщения об этом выбросе я не наблюдал другого резкого однодневного роста просмотров страниц из-за MeagIndex или другого краулера.
Обновление: 13.08.2022
Бот снова посетил наш сайт 04.08.2022 (сайт краулера)
Отчёт: Сводные просмотры страниц
Отчёт: User Agents веб-краулеров
Отчёт: Основной источник трафика
Очевидно, что разрешение боту MegaIndex.ru/2.0 индексировать сайт не приводит к росту трафика на сайте.
Примечание: Насколько мне известно, yandex.ru отличается от Megaindex.ru.
Для блокировки краулеров существует файл robots.txt, как отмечено в:
https://<Сайт Discourse>/admin/customize/robots
однако не все краулеры уважают robots.txt. ![]()
Как отмечалось выше пользователем IAmGav, существуют и другие настройки для краулеров.
robots.txt не предназначен для блокировки ботов. Это руководство для добросовестных ботов. Блокировку следует осуществлять на уровне сервера. Одна из главных причин, почему мой Discourse находится за обратным прокси.
22.12.2022 https://bot.seekport.com — новый для меня неизвестный бот — совершил чрезмерное количество просмотров страниц
Спайки активности полурегулярных краулеров — обычное явление. Мы сами классифицируем их следующим образом:
По нашему опыту, нет необходимости предпринимать меры защиты от краулинга, если только вы не хотите, чтобы ваша информация использовалась в каких-либо целях, или если вы не сталкиваетесь с серьезной нагрузкой на сервер из-за этого. В конечном счете, если ваш форум/проект является публичным, всегда найдется способ собрать ваши публичные данные для любых целей ![]()