Веб-краулеры

Увидел в другой ветке, что @simon упоминал о настройке для остановки/блокировки краулеров, но не могу найти эту настройку. Как это сделать? Кто-нибудь знает, где она находится и как работает?

У меня был необычный всплеск активности 48 краулеров на сайте 14 июля. Мне не нравятся эти маленькие пакостники — что они делают?

Ищите настройки сайта по запросу «crawler». Вы можете блокировать или замедлять их работу по user agent.

По крайней мере, некоторые индексируют ваш сайт, чтобы он появлялся в поисковых системах. Вам, вероятно, это нравится.

Также просмотрите отчет «Пользовательские агенты веб-краулеров», чтобы узнать имя краулера, вызывающего проблему:

Спасибо, я нашёл это. Теперь вижу, что по умолчанию заблокировано пять названий краулеров; полагаю, это известные проблемные пауки.

Кажется, есть возможность использовать белый список для хороших краулеров, что автоматически запрещает доступ всем остальным электронным существам. Не знаю, кто из них считается хорошим?

Нашёл отчёты о user-agent веб-краулеров. В лидерах: “YandexBox/3.0” и “CensysInspect/1.1”.

Хорошо бы появиться в некоторых поисковых системах, так как клиентам это нужно.

Получаю много звонков от маркетинговых компаний, которые предлагают платные подписки на помощь в этом вопросе. Создание веб-сайта могло бы быть полезным, но эти звонки уже начинают раздражать.

Стоит отметить, что подделать User-Agent очень просто. Если это Google, можно быть уверенным, что он так и напишет. Но то, что в строке указано, будто это Google, ничего не значит. (Та же ситуация, что и с robots.txt: это механизмы, рассчитанные на доверие. Недобросовестные участники могут просто играть по другим правилам.)

Скрытные императоры могут быть даже хуже ласок:

"# Как проверить, что робот принадлежит Yandex

Некоторые роботы могут маскироваться под роботов Yandex, указывая соответствующий User Agent. Вы можете проверить подлинность робота с помощью обратного DNS-запроса.

Просто выполните следующие шаги:

  1. Определите IP-адрес пользовательского агента с помощью логов вашего сервера.

  2. Выполните обратный DNS-запрос для IP-адреса, чтобы определить доменное имя хоста.

  3. Проверьте, принадлежит ли хост компании Yandex. Все имена роботов Yandex заканчиваются на yandex.ru, yandex.net или yandex.com. Если имя хоста имеет другое окончание, робот не принадлежит Yandex.

  4. Убедитесь, что имя правильное. Выполните прямой DNS-запрос, чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным в обратном DNS-запросе. Если IP-адреса не совпадают, это означает, что имя хоста поддельное."

Также здесь есть руководство, к которому вы можете обратиться:

Вы случайно не знаете, индексируют ли такие веб-краулеры сайты для систем голосового поиска?

Каждый день я получаю несколько автоматических звонков о том, что моя компания не зарегистрирована в основных поисковых системах голосового поиска на основе ИИ. Похоже, это просто сторонние компании, которые этим занимаются, и я не уверен, что их деятельность легитимна.

В частности: взимание платы за подписку на «регистрацию» компании в поисковых системах или помощь в том, чтобы компании появлялись на первой странице результатов поиска.

Не знаю. Сомневаюсь.

Я общался с некоторыми людьми, которые, как мне кажется, действительно могут помочь в этом вопросе, некоторые используют законные методы. По моему мнению, они скорее исключение из правил.

Я тоже ничего не знаю о голосовом поиске и даже не обязательно хочу, чтобы моя компания когда-либо индексировалась в нём.

Важно помнить об этом, особенно в наши дни, так как мошенники становятся всё более изощрёнными.

В звонках, которые я получаю, часто говорят: «ваше объявление в Google помечено на проверку», что создаёт впечатление, будто звонит сама Google, но Google никогда не звонит. Некоторые компании называют себя «партнёрами Google», не совсем понятно, что это означает, если такое вообще существует.

Один из представителей сообщил, что таких компаний около или как минимум 40. Они звонят стартапам, чтобы зарегистрировать их на платформах голосового поиска. Это объясняет, почему так много звонков.