Это руководство объясняет, как управлять веб-краулерами на вашем сайте Discourse.
Требуемый уровень доступа: Администратор
Веб-краулеры могут значительно повлиять на производительность вашего сайта, увеличивая количество просмотров страниц и нагрузку на сервер.
Когда сайт замечает резкий рост просмотров страниц, важно проверить, какую роль в этом играют веб-краулеры.
Проверка активности краулеров
Чтобы узнать, влияют ли краулеры на ваш сайт, перейдите к отчету Трафик сайта (/admin/reports/site_traffic) из панели администратора. Этот отчет разбивает количество просмотров страниц по зарегистрированным пользователям браузера, анонимным пользователям, краулерам и другим источникам.
Сайт, где краулеры работают нормально:
Сайт, где краулеры вышли из-под контроля:
Идентификация конкретных краулеров
Перейдите к отчету User Agent веб-краулеров (/admin/reports/web_crawlers), чтобы получить список названий веб-краулеров, отсортированный по количеству просмотров страниц.
Когда проблемный веб-краулер посещает сайт, количество его просмотров страниц будет значительно выше, чем у других краулеров. Обратите внимание, что одновременно могут действовать несколько вредоносных веб-краулеров.
Блокировка и ограничение краулеров
Хорошей практикой является не блокировать краулеров основных поисковых систем, таких как Google, Bing, Baidu (китайский), Yandex (русский), Naver (корейский), DuckDuckGo, Yahoo и другие, в зависимости от вашей страны.
Если веб-краулер вышел из-под контроля, высока вероятность, что тот же краулер уже посетил другие сайты, и кто-то другой уже собрал информацию или создал отчеты о нем, которые помогут понять, стоит ли ограничивать или блокировать этого конкретного краулера.
Обратите внимание, что некоторые краулеры могут генерировать большое количество просмотров страниц, если вы используете сторонние сервисы для мониторинга или добавления функциональности на свой сайт через скрипты и т.д.
Чтобы получить список ненадежных веб-краулеров, вы можете обратиться к этому списку: https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
Настройка параметров краулеров
В разделе Администрирование > Настройки есть несколько параметров, которые помогут ограничить скорость работы определенных краулеров:
-
Замедлить краулеров с помощью:
slow down crawler user agents— по умолчанию сюда входятgptbot,claudebot,anthropic-aiиbrightbotslow down crawler rate— количество секунд между разрешенными запросами от одного краулера (по умолчанию: 60)
-
Блокировать краулеров с помощью:
blocked crawler user agents— по умолчанию сюда входятmauibot,semrushbot,ahrefsbot,blexbotиseo spider
-
Разрешить только конкретным краулерам с помощью:
allowed crawler user agents— при настройке только указанные краулеры будут иметь доступ к сайту; все остальные будут заблокированы. Это работает как строгий белый список. Предупреждение: установка этого параметра переопределитblocked crawler user agentsи заблокирует всех краулеров, не входящих в список, включая основные поисковые системы, если они не включены.
Убедитесь, что вы знаете точное имя user agent для краулеров, которыми хотите управлять. Если вы измените какие-либо из вышеуказанных параметров и не увидите снижения количества просмотров страниц от этого агента, возможно, стоит перепроверить, что вы используете правильное имя.
Если вы не уверены, как действовать, всегда начинайте с опции «замедлить», а не с полной блокировки. Со временем проверьте, есть ли улучшения. Вы можете перейти к полной блокировке, если не заметите значимых результатов.


