Stiamo cercando di identificare quali argomenti specifici vengono indicizzati/scansionati più frequentemente dai crawler AI, per garantire che i nostri contenuti più “citati” non alimentino allucinazioni degli LLM. Esiste un modo, tramite Data Explorer, di attribuire i colpi dei crawler a singoli ID argomento?
Potrei sbagliarmi, ma non credo che Discourse tracci il traffico dei crawler web a livello di categoria o di argomento. (Forse si potrebbero applicare dei calcoli matematici su una query per derivare le cifre?
)
La maggior parte dell’attività di crawler AI non si identifica tramite l’user agent. In genere si spacciano per versioni obsolete di Chrome. L’unico modo per individuarli è il fatto che visitano una sola pagina e non rimangono sul sito per accedervi a una seconda. Spesso risiedono in un data center, ma ho notato anche molto traffico di pagine singole proveniente da indirizzi IP mobili e residenziali, che presumo siano dispositivi compromessi.
La maggior parte dei crawler AI comunica il proprio user agent. Quelli a cui ti riferisci sono bot/crawler SEO e altri attori non umani dannosi, abusivi o indesiderati.