Расследование предполагаемого бот-трафика с помощью Google Analytics
Это руководство предлагает пошаговый процесс использования Google Analytics 4 (GA4) для выявления и расследования предполагаемой активности ботов.
1. Понимание фильтрации ботов по умолчанию в GA4
GA4 по умолчанию автоматически исключает трафик от известных ботов и пауков.[1] Эта фильтрация основана на исследованиях Google и Списке международных пауков и ботов от IAB.
Шаги, описанные в этом руководстве, призваны помочь вам выявить более изощренных или неизвестных ботов, которые могут отсутствовать в этом списке.
2. Анализ трафика на предмет аномальных паттернов
Боты часто генерируют трафик, который значительно отклоняется от типичных паттернов поведения ваших пользователей.
Шаги:
-
Проверка отчетов в реальном времени:
- Перейдите в раздел Отчеты > Страницы в реальном времени. Обратите внимание на внезапные, необъяснимые всплески показателя «Активные пользователи за последние 30 минут». Это может быть первым признаком активности ботов.
Если вы считаете, что ваш сайт подвергается спам-атаке, воспользуйтесь нашим руководством по адресу Immediate actions you can take during a spam attack -
Исследование географического положения:
-
Перейдите в раздел Отчеты > Демография > Пользователи > Атрибуты пользователей > Детали демографии.
-
График по умолчанию должен отображать Детали демографии: Страна. Обратите внимание на большое количество пользователей из стран, которые вы не таргетируете, где у вас нет присутствия или откуда обычно поступает мало трафика. Внезапный всплеск из одной неожиданной страны — серьезный тревожный сигнал.
-
-
Анализ источников трафика на предмет реферального спама:
-
Перейдите в раздел Отчеты > Приобретение > Приобретение трафика.
-
Отчет по умолчанию использует группу «Канал по умолчанию сессии». Нажмите на стрелку раскрывающегося списка рядом с первичной размерностью и выберите Источник / среда сессии. Просканируйте список на предмет подозрительных или бессмысленных реферальных источников (например,
"free-traffic-seo.com,""buttons-for-your-website.com"). Это классические признаки реферального спама[2].
-
3. Тщательный анализ метрик поведения пользователей
Метрики поведения могут быть самым сильным инструментом GA4 для разделения реальных пользователей и ботов.
Шаги:
-
Поиск низкого времени вовлеченности:
- Перейдите в раздел Отчеты > Вовлеченность > Страницы и экраны.
В GA4 Показатель вовлеченности — это процент сессий, которые длились более 10 секунд, включали событие конверсии или содержали не менее 2 просмотров страниц. Это более нюансированный взгляд на сессию по сравнению с предыдущим показателем «Отказы».-
Метрика Среднее время вовлеченности показывает, сколько времени ваш сайт находился на переднем плане у пользователей. Боты обычно проводят на странице очень мало времени. Отсортируйте таблицу по показателю «Среднее время вовлеченности» (по возрастанию), чтобы найти страницы с необычно низкой вовлеченностью при значительном количестве просмотров.
-
Ищите страницы с высоким показателем «Просмотров», но очень низким «Показателем вовлеченности». Это указывает на то, что пользователи заходят на страницу и сразу уходят, что является типичным поведением ботов.
Если вы не видите столбец «Показатель вовлеченности», вам нужно добавить его. Нажмите на значок карандаша (Настроить отчет) в правом верхнем углу, выберите «Метрики» и добавьте «Показатель вовлеченности» в отчет. Не забудьте сохранить изменения. -
Проверка целевых страниц:
-
Перейдите в раздел Отчеты > Вовлеченность > Целевая страница.
-
В левой навигации перейдите в Отчеты > Вовлеченность > Целевая страница. Обратите внимание на страницы с большим количеством Новых пользователей, но крайне низким Средним временем вовлеченности. Такая закономерность свидетельствует об автоматизированном трафике, который попадает на конкретные точки входа на ваш сайт и сразу уходит.
-
4. Что Google Analytics не может вам сказать 
- IP-адреса: Как и Google Search Console, Google Analytics не предоставляет информацию об IP-адресах пользователей. Эти данные можно найти только в ваших журналах сервера. Анализ журналов сервера критически важен для блокировки вредоносных IP-адресов.
Заключение
Хотя Google Analytics может помочь в выявлении подозрительных паттернов трафика, для замедления или блокировки нежелательных краулеров на форуме Discourse вам необходимо изменить некоторые настройки краулеров, расположенные в разделе Администрирование > Конфигурация > Безопасность.
Discourse по умолчанию блокирует несколько агрессивных краулеров (mauibot, semrushbot, ahrefsbot, blexbot, seo spider) через настройку Blocked crawler user agents (Заблокированные user-agent краулеров). Для дополнительных ботов, которые вы хотите полностью заблокировать, добавьте их user-agent в этот список.
Для менее агрессивных, но все же ресурсоемких ботов вы можете добавить их в Slow down crawler user agents (Замедлить краулеры с user-agent), чтобы снизить скорость их сканирования без полной блокировки. По умолчанию это уже ограничивает скорость популярных ботов ИИ (gptbot, claudebot, anthropic-ai, brightbot). Вы можете управлять скоростью замедления через настройку сайта Slow down crawler rate (Скорость замедления краулеров), которая контролирует количество секунд между разрешенными запросами (по умолчанию: 60 секунд).
Также существует настройка Allowed crawler user agents (Разрешенные user-agent краулеров), которая действует как строгий белый список. Если вы добавите какие-либо user-agent в этот список, все остальные краулеры будут заблокированы. Используйте это только в том случае, если вы хотите ограничить свой сайт определенным набором краулеров.
Будьте очень осторожны при внесении изменений в эти настройки. Например, некоторые владельцы сайтов случайно заблокировали весь трафик от легитимных поисковых систем из-за некорректной настройки этого параметра.
Наконец, помните, что эти меры не являются панацеей. Краулеры постоянно развиваются и могут вести себя некорректно; они могут менять свои строки user-agent или распределять запросы по нескольким IP-адресам, чтобы обойти эти ограничения. Поэтому, хотя эти настройки могут обеспечить первую линию обороны, вам следует продолжать мониторинг вашей аналитики и журналов сервера на предмет новых или необычных паттернов.