Limitação atual:
• A pesquisa semântica do fórum indexa apenas o texto das postagens, não os anexos em PDF
• Arquivos PDF não são pesquisáveis através da opção de alternância de IA /search
• Para contornar isso, tive que carregar manualmente os PDFs separadamente para o RAG da persona
Solução proposta:
• Extrair texto de anexos PDF durante a geração de incorporação (embedding)
• Indexar o conteúdo do PDF juntamente com o texto da postagem
• Tornar os tópicos com anexos PDF detectáveis através da pesquisa semântica
Benefícios:
• Usuários encontram documentação técnica através da pesquisa do fórum
• Não há necessidade de duplicar conteúdo (postagem do fórum + upload no RAG)
• Melhor SEO (PDFs anexados a tópicos indexados)
• Arquitetura mais simples (o comando de pesquisa simplesmente funciona)
Se você implementasse isso, eu poderia potencialmente:
Remover ferramentas forçadas (a pesquisa encontraria o conteúdo do PDF naturalmente)
Eliminar totalmente os uploads de RAG (tudo nos tópicos do fórum)
Acho que um plugin pode adicionar o texto ao post cozido em um elemento de detalhes opcionalmente oculto. Isso o adicionaria para que pudesse ser encontrado, eu acho. Se você for auto-hospedado, acho que custaria apenas algumas centenas de dólares para ser desenvolvido. Ou, se parecer que eles estão interessados, enviado como um PR, por cerca do dobro disso (para incluir testes e afins).
FYI - Descobri que fazer upload de arquivos PDF para a persona impedia que ela encontrasse conteúdo de fórum “normal” na pesquisa assistida por IA. Portanto, recorri a uma combinação de (a) converter os principais em markdown (para que eu possa postá-los diretamente como tópicos) ou (b) selecionar as principais palavras-chave/TOC etc. e postá-las ao lado dos arquivos PDF nos fóruns. Eu também tive que mudar de GPT 4.1 para Sonnet 4.5 e desativar o HYDE para torná-lo confiável.