Отчет панели управления - User Agents веб-краулера

Это SQL-версия отчёта панели управления для пользовательских агентов веб-краулеров.

В этом отчёте панели управления перечислены основные пользовательские агенты веб-краулеров, отсортированные по количеству просмотров страниц, что даёт представление о том, какие краулеры наиболее активны на сайте.

--[params]
-- date :start_date = 2024-01-06
-- date :end_date = 2024-02-07

SELECT
  user_agent,
  SUM(count) AS pageviews
FROM web_crawler_requests
WHERE date BETWEEN :start_date AND :end_date
GROUP BY user_agent
ORDER BY pageviews DESC

Пояснение к SQL-запросу

  • Параметры: Запрос принимает два параметра — :start_date и :end_date, определяющие временной диапазон отчёта. Оба параметра даты принимают формат YYYY-MM-DD.
  • SELECT: Запрос извлекает данные из таблицы web_crawler_requests, которая регистрирует запросы, отправляемые веб-краулерами на форум. Каждая запись в этой таблице содержит user_agent краулера и count (количество) просмотров страниц.
  • SUM: Функция SUM(count) вычисляет общее количество просмотров страниц для каждого user_agent в указанном диапазоне дат.
  • Фильтрация: Пункт WHERE фильтрует записи, включая только те, которые попадают в указанный диапазон дат, используя столбец date.
  • Агрегация: Пункт GROUP BY группирует результаты по user_agent, обеспечивая сводку данных для каждого веб-краулера отдельно.
  • Сортировка: Пункт ORDER BY сортирует результаты по убыванию pageviews, помещая наиболее активные веб-краулеры в начало отчёта.

:discourse: Записи из таблицы web_crawler_requests автоматически удаляются через 30 дней. Результаты этого отчёта доступны только за последние 30 дней с момента его формирования, однако вы всё ещё можете использовать параметры данных этого запроса для фильтрации результатов за последние 30 дней.

Пример результатов

user_agent pageviews
Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com) 1406
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 724
Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot) 533

У меня есть небольшая идея для списка пожеланий. Некоторые строки user agent настолько длинные, что не помещаются на экране без наведения курсора. А скопировать URL с информацией о краулере из всплывающей подсказки невозможно:

Будет здорово, если отчёт сможет распознать включённый URL и отобразить ссылку или кнопку: