Indexando conteúdo de Comunidade de Discurso no Glean AI

Nossa empresa começou recentemente a usar o Glean para gestão interna do conhecimento. Gostaríamos de indexar nossa Comunidade Discurse, mas parece estar ocorrendo essa mensagem de erro:

d As limitações do conector do crawler de sites do Glean incluem:

  1. Restrições de acesso: O crawler pode ter dificuldades com sites que possuem políticas de acesso restritas ou estão protegidos por paredes de autenticação que ele não consegue ultrapassar de forma eficaz, apesar de suportar vários esquemas de autenticação (por exemplo, Basic, Bearer, NTLMv2) e cookies.
  2. Limitação de conteúdo dinâmico: Por padrão, o crawler não indexa páginas web renderizadas dinamicamente que requerem JavaScript, a menos que configurações específicas (como habilitar Renderização do Lado do Cliente (CSR)) sejam feitas. Isso exige ações adicionais de configuração que podem complicar o processo de integração.
  3. Frequência de rastreamento e gerenciamento de carga: Enquanto o Glean permite configurações de frequência de rastreamento, as organizações podem enfrentar desafios ao gerenciar a carga nos seus servidores, especialmente se várias instâncias estiverem ativas simultaneamente. Isso pode causar problemas de desempenho se não for bem orquestrado.
  4. Gerenciamento de URLs: O crawler usa expressões regulares para corresponder URLs; configurar esses padrões regex incorretamente pode levar a falhas na captura. Além disso, deve respeitar os arquivos robots.txt, que podem restringir seu rastreamento em certas páginas de acordo com as regras do site.
  5. Limitações de tipos de conteúdo: O crawler pode ter limitações na indexação de tipos ou formatos específicos de conteúdo, como certos elementos interativos ou arquivos que não são suportados diretamente pelo sistema (como formatos de texto não específicos), a menos que soluções personalizadas sejam implementadas.

d Essas limitações podem representar desafios para organizações que desejam aproveitar plenamente as capacidades do conector do Glean na captura e indexação eficiente de informações baseadas na web.

Alguém já conseguiu indexar sua Discourse com um provedor de IA, como o Glean?

Não se trata de IA, mas de rastreadores. E, até onde sei, a resposta é não e sim. Se uma categoria é visível para todos, ela pode ser rastreada. É assim que o Googlebot funciona. Se um fórum estiver atrás de um login, ou a visibilidade de uma categoria for limitada por níveis de confiança, o rastreamento é impossível. E eu realmente espero que isso nunca seja quebrado, pois é uma das medidas de segurança mais importantes.

Mas, claro, você pode rastrear conteúdo “oculto” dessa forma, se

  • você obtiver um sistema onde um bot possa fazer login e ler o conteúdo, ou
  • você indexará o conteúdo de dentro usando o Discourse AI conectado ao modelo desejado (ou sistema semelhante)
1 curtida

Se você definir o agente de usuário deles para ser identificado como um bot de rastreamento, o Discourse exibirá uma visualização HTML básica que é muito mais fácil de indexar.

Alternativamente, adicione o agente de usuário deles à configuração oculta do site crawler_user_agents.

4 curtidas

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.