Suivi de l'activité des crawlers LLM : pouvons-nous identifier les sujets les plus fréquemment indexés ou explorés ?

noahl · Avril 20, 2026, 9:41

Nous cherchons à identifier quels sujets spécifiques sont indexés ou explorés le plus fréquemment par les robots d’exploration de l’IA, afin de nous assurer que notre contenu le plus « cité » ne nourrit pas les hallucinations des modèles de langage (LLM). Existe-t-il un moyen, via Data Explorer, d’attribuer les visites des robots à des identifiants de sujets individuels ?

Lilly · Avril 20, 2026, 9:59

Je pourrais me tromper, mais je ne pense pas que Discourse suive le trafic des robots d’exploration au niveau des catégories ou des sujets. (peut-être qu’une certaine mathématique de requête pourrait être appliquée pour déduire les chiffres ? )

github.com/discourse/discourse

app/models/web_crawler_request.rb

e9f4e0dca


      
          # == Schema Information
          #
          # Table name: web_crawler_requests
          #
          #  id         :bigint           not null, primary key
          #  date       :date             not null
          #  user_agent :string           not null
          #  count      :integer          default(0), not null
          #
          # Indexes
          #
          #  index_web_crawler_requests_on_date_and_user_agent  (date,user_agent) UNIQUE
          #

elmuerte · Avril 21, 2026, 5:09

La plupart des activités de crawl IA ne s’identifient pas via l’agent utilisateur. Elles se font généralement passer pour des versions obsolètes de Chrome. Le seul moyen de les identifier est le fait qu’elles ne visitent qu’une seule page et ne restent pas sur le site pour en consulter une deuxième. Elles résident souvent dans un centre de données, mais j’ai également constaté beaucoup de trafic monopage provenant d’adresses IP mobiles et résidentielles, que je suppose être issues d’appareils compromis.

Jagster · Avril 21, 2026, 5:26

La plupart des robots d’exploration IA indiquent leur user agent. Ceux auxquels vous faites référence sont des robots d’exploration SEO et d’autres acteurs non humains malveillants, abusifs ou indésirables.

Sujet		Réponses	Vues
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4804	Décembre 2, 2023
Discourse is Agent Ready: Here’s How Blog	9	628	Mai 24, 2026
Discourse SEO overview (sitemap / robots.txt) Site Management seo , explanation	0	2371	Octobre 18, 2023
User-agent: lfc-discourse-public-crawler Bug	3	127	Juillet 9, 2026
Have AI identify and flag web crawlers Feature ai	1	264	Juillet 11, 2023

Suivi de l'activité des crawlers LLM : pouvons-nous identifier les sujets les plus fréquemment indexés ou explorés ?

Sujets connexes