Nuestra empresa comenzó a usar Glean para la gestión interna del conocimiento. Nos gustaría indexar nuestra comunidad de Discourse, pero parece que estamos enfrentando este mensaje de error:
Las limitaciones del conector del rastreador de sitios web de Glean incluyen lo siguiente:
- Restricciones de acceso: El rastreador puede tener dificultades con sitios web que tienen políticas de acceso estrictas o están protegidos por muros de autenticación que no puede atravesar eficazmente, a pesar de admitir varios esquemas de autenticación (por ejemplo, Basic, Bearer, NTLMv2) y cookies.
- Limitación de contenido dinámico: Por defecto, el rastreador no indexa páginas web renderizadas dinámicamente que requieren JavaScript a menos que se configuren acciones específicas (como habilitar la Renderización del Lado del Cliente (CSR)). Esto requiere pasos adicionales en la configuración que podrían complicar el proceso de integración.
- Frecuencia de rastreo y gestión de carga: Aunque Glean permite configurar la frecuencia de rastreo, las organizaciones pueden enfrentar desafíos para gestionar la carga en sus servidores, especialmente si hay varias instancias activas simultáneamente. Esto puede causar problemas de rendimiento si no se orquesta correctamente.
- Gestión de URLs: El rastreador usa expresiones regulares para coincidir con las URLs; configurar estas expresiones regex incorrectamente puede provocar fallos en la recuperación. Además, debe respetar los archivos
robots.txt, que pueden limitar su rastreo en ciertas páginas según las reglas del sitio web. - Limitaciones en tipos de contenido: El rastreador puede tener limitaciones para indexar ciertos tipos de contenido o formatos, como ciertos elementos interactivos o archivos que no son soportados directamente por el sistema (como formatos específicos no textuales), a menos que se implementen soluciones personalizadas.
Estas limitaciones pueden representar desafíos para las organizaciones que buscan aprovechar al máximo las capacidades del conector de Glean en la captura e indexación eficiente de información basada en la web.
¿Alguien ha conseguido indexar su Discourse con un proveedor de IA, como Glean?