Rastreo de la actividad de los rastreadores LLM: ¿Podemos identificar qué temas se indexan o rastrean con más frecuencia?

Estamos tratando de identificar qué temas específicos están siendo indexados/rastreados con mayor frecuencia por los rastreadores de IA, para asegurar que nuestro contenido más “citado” no alimente alucinaciones de los LLM. ¿Existe alguna forma en Data Explorer de atribuir los impactos de los rastreadores a identificadores de tema individuales?

Puede que esté equivocado, pero creo que Discourse no rastrea el tráfico de los rastreadores web a nivel de categoría o tema. (¿quizás se podría aplicar algún cálculo de consulta para derivar las cifras? :thinking:)

La mayoría de las actividades de rastreo de IA no se identifican a través del agente de usuario. Por lo general, afirman ser versiones desactualizadas de Chrome. La única forma de identificarlas es por el hecho de que solo visitan una sola página y no permanecen en el sitio para visitar una segunda página. A menudo residen en un centro de datos, pero también he observado mucho tráfico de una sola página desde IPs móviles y residenciales, lo que asumo que proviene de dispositivos comprometidos.

La mayoría de los rastreadores de IA indican su user agent. A los que te refieres son bots/rastreadores de SEO y otros actores no humanos maliciosos, abusivos o no deseados.