Rastreando a atividade de crawlers de LLM: Podemos identificar quais tópicos estão sendo indexados/rastreados com mais frequência?

Estamos buscando identificar quais tópicos específicos estão sendo indexados/rastreados com mais frequência por crawlers de IA, para garantir que nosso conteúdo mais “citado” não esteja alimentando alucinações de LLM. Há uma maneira, no Data Explorer, de atribuir acessos de crawlers a IDs de tópico individuais?

Posso estar errado, mas não acho que o Discourse rastreie o tráfego de web crawlers no nível de categoria ou tópico. (talvez haja algum cálculo de consulta que possa ser aplicado para derivar as cifras? :thinking:)

A maioria das atividades de crawlers de IA não se identifica por meio do user agent. Eles geralmente afirmam ser versões desatualizadas do Chrome. A única maneira de identificá-los é pelo fato de que eles acessam apenas uma única página e não permanecem no site para visitar uma segunda página. Muitas vezes, eles residem em um data center, mas também observei muito tráfego de página única proveniente de IPs móveis e residenciais, o que presumo ser por meio de dispositivos comprometidos.

A maioria dos crawlers de IA informa o user agent. Aqueles aos quais você se refere são bots/crawlers de SEO e outros atores não humanos maliciosos, abusivos ou indesejados.