Rastreando a atividade de crawlers de LLM: Podemos identificar quais tópicos estão sendo indexados/rastreados com mais frequência?

noahl · Abril 20, 2026, 9:41pm

Estamos buscando identificar quais tópicos específicos estão sendo indexados/rastreados com mais frequência por crawlers de IA, para garantir que nosso conteúdo mais “citado” não esteja alimentando alucinações de LLM. Há uma maneira, no Data Explorer, de atribuir acessos de crawlers a IDs de tópico individuais?

Lilly · Abril 20, 2026, 9:59pm

Posso estar errado, mas não acho que o Discourse rastreie o tráfego de web crawlers no nível de categoria ou tópico. (talvez haja algum cálculo de consulta que possa ser aplicado para derivar as cifras? )

github.com/discourse/discourse

app/models/web_crawler_request.rb

e9f4e0dca


      
          # == Schema Information
          #
          # Table name: web_crawler_requests
          #
          #  id         :bigint           not null, primary key
          #  date       :date             not null
          #  user_agent :string           not null
          #  count      :integer          default(0), not null
          #
          # Indexes
          #
          #  index_web_crawler_requests_on_date_and_user_agent  (date,user_agent) UNIQUE
          #

elmuerte · Abril 21, 2026, 5:09am

A maioria das atividades de crawlers de IA não se identifica por meio do user agent. Eles geralmente afirmam ser versões desatualizadas do Chrome. A única maneira de identificá-los é pelo fato de que eles acessam apenas uma única página e não permanecem no site para visitar uma segunda página. Muitas vezes, eles residem em um data center, mas também observei muito tráfego de página única proveniente de IPs móveis e residenciais, o que presumo ser por meio de dispositivos comprometidos.

Jagster · Abril 21, 2026, 5:26am

A maioria dos crawlers de IA informa o user agent. Aqueles aos quais você se refere são bots/crawlers de SEO e outros atores não humanos maliciosos, abusivos ou indesejados.

Tópico		Respostas	Visualizações
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4804	2 de Dezembro de 2023
Discourse is Agent Ready: Here’s How Blog	9	630	24 de Maio de 2026
Discourse SEO overview (sitemap / robots.txt) Site Management seo , explanation	0	2371	18 de Outubro de 2023
User-agent: lfc-discourse-public-crawler Bug	3	127	9 de Julho de 2026
Have AI identify and flag web crawlers Feature ai	1	264	11 de Julho de 2023

Rastreando a atividade de crawlers de LLM: Podemos identificar quais tópicos estão sendo indexados/rastreados com mais frequência?

Tópicos relacionados