Monitoraggio dell'attività dei crawler LLM: possiamo identificare quali argomenti vengono indicizzati/crawlati più frequentemente?

noahl · 20 Aprile 2026, 9:41pm

Stiamo cercando di identificare quali argomenti specifici vengono indicizzati/scansionati più frequentemente dai crawler AI, per garantire che i nostri contenuti più “citati” non alimentino allucinazioni degli LLM. Esiste un modo, tramite Data Explorer, di attribuire i colpi dei crawler a singoli ID argomento?

Lilly · 20 Aprile 2026, 9:59pm

Potrei sbagliarmi, ma non credo che Discourse tracci il traffico dei crawler web a livello di categoria o di argomento. (Forse si potrebbero applicare dei calcoli matematici su una query per derivare le cifre? )

github.com/discourse/discourse

app/models/web_crawler_request.rb

e9f4e0dca


      
          # == Schema Information
          #
          # Table name: web_crawler_requests
          #
          #  id         :bigint           not null, primary key
          #  date       :date             not null
          #  user_agent :string           not null
          #  count      :integer          default(0), not null
          #
          # Indexes
          #
          #  index_web_crawler_requests_on_date_and_user_agent  (date,user_agent) UNIQUE
          #

elmuerte · 21 Aprile 2026, 5:09am

La maggior parte dell’attività di crawler AI non si identifica tramite l’user agent. In genere si spacciano per versioni obsolete di Chrome. L’unico modo per individuarli è il fatto che visitano una sola pagina e non rimangono sul sito per accedervi a una seconda. Spesso risiedono in un data center, ma ho notato anche molto traffico di pagine singole proveniente da indirizzi IP mobili e residenziali, che presumo siano dispositivi compromessi.

Jagster · 21 Aprile 2026, 5:26am

La maggior parte dei crawler AI comunica il proprio user agent. Quelli a cui ti riferisci sono bot/crawler SEO e altri attori non umani dannosi, abusivi o indesiderati.

Argomento		Risposte	Visualizzazioni
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4798	Dicembre 2, 2023
Discourse is Agent Ready: Here’s How Blog	9	628	Maggio 24, 2026
Discourse SEO overview (sitemap / robots.txt) Site Management seo , explanation	0	2369	Ottobre 18, 2023
User-agent: lfc-discourse-public-crawler Bug	3	127	Luglio 9, 2026
Have AI identify and flag web crawlers Feature ai	1	264	Luglio 11, 2023

Monitoraggio dell'attività dei crawler LLM: possiamo identificare quali argomenti vengono indicizzati/crawlati più frequentemente?

Argomenti correlati