Indexación de contenido de comunidades discursivas en Glean AI

Nuestra empresa comenzó a usar Glean para la gestión interna del conocimiento. Nos gustaría indexar nuestra comunidad de Discourse, pero parece que estamos enfrentando este mensaje de error:

Las limitaciones del conector del rastreador de sitios web de Glean incluyen lo siguiente:

  1. Restricciones de acceso: El rastreador puede tener dificultades con sitios web que tienen políticas de acceso estrictas o están protegidos por muros de autenticación que no puede atravesar eficazmente, a pesar de admitir varios esquemas de autenticación (por ejemplo, Basic, Bearer, NTLMv2) y cookies.
  2. Limitación de contenido dinámico: Por defecto, el rastreador no indexa páginas web renderizadas dinámicamente que requieren JavaScript a menos que se configuren acciones específicas (como habilitar la Renderización del Lado del Cliente (CSR)). Esto requiere pasos adicionales en la configuración que podrían complicar el proceso de integración.
  3. Frecuencia de rastreo y gestión de carga: Aunque Glean permite configurar la frecuencia de rastreo, las organizaciones pueden enfrentar desafíos para gestionar la carga en sus servidores, especialmente si hay varias instancias activas simultáneamente. Esto puede causar problemas de rendimiento si no se orquesta correctamente.
  4. Gestión de URLs: El rastreador usa expresiones regulares para coincidir con las URLs; configurar estas expresiones regex incorrectamente puede provocar fallos en la recuperación. Además, debe respetar los archivos robots.txt, que pueden limitar su rastreo en ciertas páginas según las reglas del sitio web.
  5. Limitaciones en tipos de contenido: El rastreador puede tener limitaciones para indexar ciertos tipos de contenido o formatos, como ciertos elementos interactivos o archivos que no son soportados directamente por el sistema (como formatos específicos no textuales), a menos que se implementen soluciones personalizadas.

Estas limitaciones pueden representar desafíos para las organizaciones que buscan aprovechar al máximo las capacidades del conector de Glean en la captura e indexación eficiente de información basada en la web.

¿Alguien ha conseguido indexar su Discourse con un proveedor de IA, como Glean?

No se trata de IA, sino de rastreadores. Y hasta donde yo sé, la respuesta es no y sí. Si una categoría es visible para todos, puede ser rastreada. Así es como funciona googlebot. Si un foro está detrás de un inicio de sesión, o la visibilidad de una categoría está limitada por niveles de confianza, el rastreo es imposible. Y realmente espero que esto nunca se rompa, porque es una de las medidas de seguridad más importantes.

Pero claro, puedes rastrear contenido “oculto” de este tipo, si

  • obtienes un sistema donde un bot pueda iniciar sesión y leer contenido, o
  • indexas el contenido desde adentro usando Discourse AI conectado al modelo deseado (o un sistema similar)
1 me gusta

Si configuras su agente de usuario para que se identifique como un bot rastreador, Discourse mostrará una vista HTML básica que es mucho más fácil de indexar.

Alternativamente, agrega su agente de usuario a la configuración oculta del sitio crawler_user_agents.

4 Me gusta

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.