Nous cherchons à identifier quels sujets spécifiques sont indexés ou explorés le plus fréquemment par les robots d’exploration de l’IA, afin de nous assurer que notre contenu le plus « cité » ne nourrit pas les hallucinations des modèles de langage (LLM). Existe-t-il un moyen, via Data Explorer, d’attribuer les visites des robots à des identifiants de sujets individuels ?
Je pourrais me tromper, mais je ne pense pas que Discourse suive le trafic des robots d’exploration au niveau des catégories ou des sujets. (peut-être qu’une certaine mathématique de requête pourrait être appliquée pour déduire les chiffres ?
)
La plupart des activités de crawl IA ne s’identifient pas via l’agent utilisateur. Elles se font généralement passer pour des versions obsolètes de Chrome. Le seul moyen de les identifier est le fait qu’elles ne visitent qu’une seule page et ne restent pas sur le site pour en consulter une deuxième. Elles résident souvent dans un centre de données, mais j’ai également constaté beaucoup de trafic monopage provenant d’adresses IP mobiles et résidentielles, que je suppose être issues d’appareils compromis.
La plupart des robots d’exploration IA indiquent leur user agent. Ceux auxquels vous faites référence sont des robots d’exploration SEO et d’autres acteurs non humains malveillants, abusifs ou indésirables.