Conteúdo do arquivo de índice para busca

Isso seria uma ENORME melhoria, especialmente para fóruns que carregam muita documentação via PDFs, digitalizações ou imagens. Se o escopo se limitar à pesquisa, o ideal seria extrair/criar texto e, em seguida, armazenar esse texto em uma coluna no postgres. Ao fazer isso, você pode aproveitar a busca de texto completo do postgres já existente.

No Linux, por exemplo, você poderia usar pdftotext para extrair o texto de um PDF e armazená-lo no banco de dados. Outra ideia (mais cara) é usar visão computacional para explicar/extrair o PDF ou a imagem para armazenamento no banco de dados.

Opiniões?

2 curtidas