Nossa empresa começou recentemente a usar o Glean para gestão interna do conhecimento. Gostaríamos de indexar nossa Comunidade Discurse, mas parece estar ocorrendo essa mensagem de erro:
d As limitações do conector do crawler de sites do Glean incluem:
- Restrições de acesso: O crawler pode ter dificuldades com sites que possuem políticas de acesso restritas ou estão protegidos por paredes de autenticação que ele não consegue ultrapassar de forma eficaz, apesar de suportar vários esquemas de autenticação (por exemplo, Basic, Bearer, NTLMv2) e cookies.
- Limitação de conteúdo dinâmico: Por padrão, o crawler não indexa páginas web renderizadas dinamicamente que requerem JavaScript, a menos que configurações específicas (como habilitar Renderização do Lado do Cliente (CSR)) sejam feitas. Isso exige ações adicionais de configuração que podem complicar o processo de integração.
- Frequência de rastreamento e gerenciamento de carga: Enquanto o Glean permite configurações de frequência de rastreamento, as organizações podem enfrentar desafios ao gerenciar a carga nos seus servidores, especialmente se várias instâncias estiverem ativas simultaneamente. Isso pode causar problemas de desempenho se não for bem orquestrado.
- Gerenciamento de URLs: O crawler usa expressões regulares para corresponder URLs; configurar esses padrões regex incorretamente pode levar a falhas na captura. Além disso, deve respeitar os arquivos
robots.txt, que podem restringir seu rastreamento em certas páginas de acordo com as regras do site. - Limitações de tipos de conteúdo: O crawler pode ter limitações na indexação de tipos ou formatos específicos de conteúdo, como certos elementos interativos ou arquivos que não são suportados diretamente pelo sistema (como formatos de texto não específicos), a menos que soluções personalizadas sejam implementadas.
d Essas limitações podem representar desafios para organizações que desejam aproveitar plenamente as capacidades do conector do Glean na captura e indexação eficiente de informações baseadas na web.
Alguém já conseguiu indexar sua Discourse com um provedor de IA, como o Glean?