Rapport de tableau de bord - Agents utilisateur de robots d'exploration Web

Ceci est une version SQL du rapport de tableau de bord pour les agents utilisateurs de robots d’exploration Web.

Ce rapport de tableau de bord répertorie les principaux agents utilisateurs de robots d’exploration Web, triés par nombre de pages vues, offrant un aperçu des robots les plus actifs sur un site.

--[params]
-- date :start_date = 2024-01-06
-- date :end_date = 2024-02-07

SELECT
  user_agent,
  SUM(count) AS pageviews
FROM web_crawler_requests
WHERE date BETWEEN :start_date AND :end_date
GROUP BY user_agent
ORDER BY pageviews DESC

Explication de la requête SQL

  • Paramètres: La requête accepte deux paramètres, :start_date et :end_date, qui définissent la période pour le rapport. Les deux paramètres de date acceptent le format AAAA-MM-JJ.
  • SELECT: La requête récupère les données de la table web_crawler_requests, qui enregistre les requêtes effectuées par les robots d’exploration Web sur le forum. Chaque enregistrement de cette table inclut l’user_agent du robot et un count de pages vues.
  • SUM: La fonction SUM(count) calcule le nombre total de pages vues pour chaque user_agent dans la plage de dates spécifiée.
  • Filtrage: La clause WHERE filtre les enregistrements pour inclure uniquement ceux qui se situent dans la plage de dates spécifiée, en utilisant la colonne date.
  • Agrégation: La clause GROUP BY regroupe les résultats par user_agent, garantissant que les données sont résumées pour chaque robot d’exploration Web individuellement.
  • Tri: La clause ORDER BY trie les résultats par ordre décroissant de pageviews, plaçant les robots d’exploration Web les plus actifs en haut du rapport.

:discourse: Les enregistrements de la table web_crawler_requests sont automatiquement supprimés après 30 jours. Les résultats de ce rapport ne sont disponibles que pour les 30 derniers jours à partir du moment où le rapport est exécuté. Cependant, vous pouvez toujours utiliser les paramètres de date de cette requête pour filtrer les résultats dans les 30 derniers jours.

Résultats d’exemple

user_agent pageviews
Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com) 1406
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 724
Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot) 533
2 « J'aime »

J’ai un petit élément sur ma liste de souhaits. Certaines chaînes d’agent utilisateur sont si longues qu’on ne peut pas tout voir sans survoler avec la souris. Et je ne peux pas copier une URL d’informations sur le robot d’exploration à partir d’un survol :

Ce serait bien si le rapport pouvait analyser une URL incluse et présenter un lien ou un bouton :

1 « J'aime »