Как исследовать трафик ботов с помощью Google Analytics

Расследование предполагаемого бот-трафика с помощью Google Analytics

Это руководство предлагает пошаговый процесс использования Google Analytics 4 (GA4) для выявления и расследования предполагаемой активности ботов.

1. Понимание фильтрации ботов по умолчанию в GA4

GA4 по умолчанию автоматически исключает трафик от известных ботов и пауков.[1] Эта фильтрация основана на исследованиях Google и Списке международных пауков и ботов от IAB.

Шаги, описанные в этом руководстве, призваны помочь вам выявить более изощренных или неизвестных ботов, которые могут отсутствовать в этом списке.

2. Анализ трафика на предмет аномальных паттернов

Боты часто генерируют трафик, который значительно отклоняется от типичных паттернов поведения ваших пользователей.

Шаги:

  1. Проверка отчетов в реальном времени:

    • Перейдите в раздел Отчеты > Страницы в реальном времени. Обратите внимание на внезапные, необъяснимые всплески показателя «Активные пользователи за последние 30 минут». Это может быть первым признаком активности ботов.

    :warning: Если вы считаете, что ваш сайт подвергается спам-атаке, воспользуйтесь нашим руководством по адресу Immediate actions you can take during a spam attack

  2. Исследование географического положения:

    • Перейдите в раздел Отчеты > Демография > Пользователи > Атрибуты пользователей > Детали демографии.

    • График по умолчанию должен отображать Детали демографии: Страна. Обратите внимание на большое количество пользователей из стран, которые вы не таргетируете, где у вас нет присутствия или откуда обычно поступает мало трафика. Внезапный всплеск из одной неожиданной страны — серьезный тревожный сигнал.

  3. Анализ источников трафика на предмет реферального спама:

    • Перейдите в раздел Отчеты > Приобретение > Приобретение трафика.

    • Отчет по умолчанию использует группу «Канал по умолчанию сессии». Нажмите на стрелку раскрывающегося списка рядом с первичной размерностью и выберите Источник / среда сессии. Просканируйте список на предмет подозрительных или бессмысленных реферальных источников (например, "free-traffic-seo.com," "buttons-for-your-website.com"). Это классические признаки реферального спама[2].

3. Тщательный анализ метрик поведения пользователей

Метрики поведения могут быть самым сильным инструментом GA4 для разделения реальных пользователей и ботов.

Шаги:

  1. Поиск низкого времени вовлеченности:

    • Перейдите в раздел Отчеты > Вовлеченность > Страницы и экраны.

    :information_source: В GA4 Показатель вовлеченности — это процент сессий, которые длились более 10 секунд, включали событие конверсии или содержали не менее 2 просмотров страниц. Это более нюансированный взгляд на сессию по сравнению с предыдущим показателем «Отказы».

    • Метрика Среднее время вовлеченности показывает, сколько времени ваш сайт находился на переднем плане у пользователей. Боты обычно проводят на странице очень мало времени. Отсортируйте таблицу по показателю «Среднее время вовлеченности» (по возрастанию), чтобы найти страницы с необычно низкой вовлеченностью при значительном количестве просмотров.

    • Ищите страницы с высоким показателем «Просмотров», но очень низким «Показателем вовлеченности». Это указывает на то, что пользователи заходят на страницу и сразу уходят, что является типичным поведением ботов.

    :information_source: Если вы не видите столбец «Показатель вовлеченности», вам нужно добавить его. Нажмите на значок карандаша (Настроить отчет) в правом верхнем углу, выберите «Метрики» и добавьте «Показатель вовлеченности» в отчет. Не забудьте сохранить изменения.

  2. Проверка целевых страниц:

    • Перейдите в раздел Отчеты > Вовлеченность > Целевая страница.

    • В левой навигации перейдите в Отчеты > Вовлеченность > Целевая страница. Обратите внимание на страницы с большим количеством Новых пользователей, но крайне низким Средним временем вовлеченности. Такая закономерность свидетельствует об автоматизированном трафике, который попадает на конкретные точки входа на ваш сайт и сразу уходит.

4. Что Google Analytics не может вам сказать :frowning:

  • IP-адреса: Как и Google Search Console, Google Analytics не предоставляет информацию об IP-адресах пользователей. Эти данные можно найти только в ваших журналах сервера. Анализ журналов сервера критически важен для блокировки вредоносных IP-адресов.

Заключение

Хотя Google Analytics может помочь в выявлении подозрительных паттернов трафика, для замедления или блокировки нежелательных краулеров на форуме Discourse вам необходимо изменить некоторые настройки краулеров, расположенные в разделе Администрирование > Конфигурация > Безопасность.

Discourse по умолчанию блокирует несколько агрессивных краулеров (mauibot, semrushbot, ahrefsbot, blexbot, seo spider) через настройку Blocked crawler user agents (Заблокированные user-agent краулеров). Для дополнительных ботов, которые вы хотите полностью заблокировать, добавьте их user-agent в этот список.

Для менее агрессивных, но все же ресурсоемких ботов вы можете добавить их в Slow down crawler user agents (Замедлить краулеры с user-agent), чтобы снизить скорость их сканирования без полной блокировки. По умолчанию это уже ограничивает скорость популярных ботов ИИ (gptbot, claudebot, anthropic-ai, brightbot). Вы можете управлять скоростью замедления через настройку сайта Slow down crawler rate (Скорость замедления краулеров), которая контролирует количество секунд между разрешенными запросами (по умолчанию: 60 секунд).

Также существует настройка Allowed crawler user agents (Разрешенные user-agent краулеров), которая действует как строгий белый список. Если вы добавите какие-либо user-agent в этот список, все остальные краулеры будут заблокированы. Используйте это только в том случае, если вы хотите ограничить свой сайт определенным набором краулеров.

:warning: Будьте очень осторожны при внесении изменений в эти настройки. Например, некоторые владельцы сайтов случайно заблокировали весь трафик от легитимных поисковых систем из-за некорректной настройки этого параметра.

Наконец, помните, что эти меры не являются панацеей. Краулеры постоянно развиваются и могут вести себя некорректно; они могут менять свои строки user-agent или распределять запросы по нескольким IP-адресам, чтобы обойти эти ограничения. Поэтому, хотя эти настройки могут обеспечить первую линию обороны, вам следует продолжать мониторинг вашей аналитики и журналов сервера на предмет новых или необычных паттернов.


  1. Known bot-traffic exclusion - Analytics Help ↩︎

  2. Referrer spam - Wikipedia ↩︎