Enquêter sur le trafic suspect de bots en utilisant Google Analytics
Ce guide fournit un processus étape par étape pour utiliser Google Analytics 4 (GA4) afin d’aider à identifier et à enquêter sur une activité suspecte de bots.
1. Comprendre le filtrage par défaut des bots de GA4
GA4 exclut automatiquement par défaut le trafic provenant des bots et des robots d’indexation connus.[1] Ce filtrage est basé sur les recherches de Google et la liste internationale des robots d’indexation et des bots de l’IAB.
Les étapes de ce guide visent à vous aider à identifier des bots plus sophistiqués ou inconnus qui ne figurent peut-être pas sur cette liste.
2. Analyser le trafic pour détecter des modèles inhabituels
Les bots génèrent souvent un trafic qui s’écarte considérablement de vos modèles d’utilisateurs typiques.
Étapes :
-
Vérifier les rapports en temps réel :
- Allez dans Rapports > Pages en temps réel. Recherchez des pics soudains et inexplicables dans « Utilisateurs actifs au cours des 30 dernières minutes ». Cela peut être le premier signe d’une augmentation de l’activité des bots.
Si vous pensez que votre site est la cible d’une attaque de spam, consultez notre guide sur Immediate actions you can take during a spam attack -
Enquêter sur la localisation géographique :
-
Allez dans Rapports > Démographie > Utilisateur > Attributs de l’utilisateur > Détails démographiques.
-
Le graphique par défaut affiché doit être Détails démographiques : Pays. Recherchez un grand nombre d’utilisateurs provenant de pays que vous ne ciblez pas, où vous n’avez aucune présence commerciale, ou où vous n’avez généralement pas reçu beaucoup de trafic. Une augmentation soudaine depuis un seul endroit inattendu est un signal d’alarme majeur.
-
-
Analyser les sources de trafic pour le spam de référence :
-
Allez dans Rapports > Acquisition > Acquisition du trafic.
-
Le rapport est défini par défaut sur « Groupe de canaux par défaut de la session ». Cliquez sur la flèche déroulante à côté de la dimension principale et sélectionnez Source / Médium de la session. Parcourez les sources de référence suspectes ou sans sens (par exemple,
\"free-traffic-seo.com,\"\"buttons-for-your-website.com\"). Ce sont des signes classiques de spam de référence[2].
-
3. Examiner les métriques de comportement des utilisateurs
Les métriques de comportement peuvent être l’outil le plus puissant de GA4 pour distinguer les utilisateurs humains des bots.
Étapes :
-
Rechercher un temps d’engagement faible :
- Allez dans Rapports > Engagement > Pages et écrans.
Dans GA4, le Taux d’engagement est le pourcentage de sessions ayant duré plus de 10 secondes, comportant un événement de conversion ou ayant généré au moins 2 vues de page. C’est une vision plus nuancée de la session que leur mesure précédente du « taux de rebond ».-
La métrique Temps moyen d’engagement indique combien de temps votre site est resté au premier plan pour les utilisateurs. Les bots passent généralement très peu de temps sur une page. Triez le tableau par « Temps moyen d’engagement » (croissant) pour trouver des pages avec un engagement anormalement faible malgré un nombre important de vues.
-
Recherchez des pages avec un nombre élevé de « Vues » mais un « Taux d’engagement » très faible. Cela indique que les utilisateurs arrivent sur la page et la quittent immédiatement, un comportement courant des bots.
Si vous ne voyez pas la colonne « Taux d’engagement », vous devez l’ajouter. Cliquez sur l’icône du crayon (Personnaliser le rapport) dans le coin supérieur droit, sélectionnez « Métriques » et ajoutez « Taux d’engagement » au rapport. N’oubliez pas d’enregistrer vos modifications. -
Vérifier les pages d’atterrissage :
-
Allez dans Rapports > Engagement > Page d’atterrissage.
-
Dans la navigation de gauche, allez dans Rapports > Engagement > Page d’atterrissage. Recherchez des pages avec un grand nombre d’Nouveaux utilisateurs mais un Temps moyen d’engagement extrêmement faible. Ce modèle suggère un trafic automatisé ciblant des points d’entrée spécifiques de votre site et repartant immédiatement.
-
4. Ce que Google Analytics ne peut pas vous dire 
- Adresses IP : Comme Google Search Console, Google Analytics ne rapporte pas les adresses IP des utilisateurs. Ces informations ne peuvent être trouvées que dans vos journaux de serveur. L’analyse des journaux de serveur est essentielle pour bloquer les adresses IP malveillantes.
Conclusion
Bien que Google Analytics puisse être utile pour identifier des modèles de trafic suspects, pour ralentir ou bloquer les robots d’indexation indésirables sur un forum Discourse, vous devrez ajuster certains paramètres des robots d’indexation trouvés sous Admin > Configuration > Sécurité.
Discourse bloque déjà par défaut plusieurs robots d’indexation agressifs (mauibot, semrushbot, ahrefsbot, blexbot, seo spider) via le paramètre Agents utilisateur des robots d'indexation bloqués. Pour les bots supplémentaires que vous choisissez de bloquer complètement, ajoutez leur agent utilisateur à cette liste.
Pour les bots moins agressifs mais toujours gourmands en ressources, vous pouvez les ajouter à Ralentir les agents utilisateur des robots d'indexation pour réduire leur vitesse d’exploration sans les bloquer entièrement. Par défaut, cela limite déjà le débit des bots d’IA courants (gptbot, claudebot, anthropic-ai, brightbot). Vous pouvez gérer le taux de ralentissement via le paramètre du site Taux de ralentissement des robots d'indexation, qui contrôle le nombre de secondes entre les requêtes autorisées (par défaut : 60 secondes).
Il existe également un paramètre Agents utilisateur des robots d'indexation autorisés, qui agit comme une liste blanche stricte. Si vous ajoutez des agents utilisateur à cette liste, tous les autres robots d’indexation seront bloqués. N’utilisez cette option que si vous souhaitez restreindre votre site à un ensemble spécifique de robots d’indexation.
Soyez très prudent lors de l’ajustement de ces paramètres. Par exemple, certains propriétaires de sites ont accidentellement bloqué tout le trafic provenant des moteurs de recherche légitimes en configurant mal ce paramètre.
Enfin, rappelez-vous que ces mesures ne sont pas infaillibles. Les robots d’indexation évoluent constamment et peuvent ne pas être bienveillants ; ils peuvent modifier leurs chaînes d’agent utilisateur ou répartir les requêtes sur plusieurs adresses IP pour contourner ces limites. Par conséquent, bien que ces paramètres puissent constituer une première ligne de défense solide, vous devez continuer à surveiller vos analyses et vos journaux de serveur pour détecter de nouveaux modèles ou des modèles inhabituels.