Conteúdo do arquivo de índice para busca

ahuling · Agosto 7, 2015, 6:37pm

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

codinghorror · Agosto 7, 2015, 6:47pm

No plans for this at the moment.

DDo · Junho 11, 2020, 7:06am

“Eu também”
Gostaríamos que os anexos (no nosso caso, PDFs) também fossem indexados pelo mecanismo de busca.

sam · Junho 11, 2020, 7:40am

Esta é claramente uma funcionalidade voltada para clientes corporativos. Não temos planos concretos com um cronograma definido, e não tenho certeza do que aconteceria com o Postgres ao lidar com documentos PDF muito grandes.

Certamente é algo que temos considerado ao longo dos anos e que pode ser desenvolvido nos próximos anos.

Craig_Robben · Março 17, 2022, 8:58pm

Curioso se o Discourse adicionou a capacidade de indexar e pesquisar PDFs ainda?

sam · Março 17, 2022, 11:16pm

Ainda não, mas é muito viável construir em um plugin.

avandorp · Junho 29, 2022, 7:51am

Ao desenvolver um plugin assim: Por onde você começaria? Sendo totalmente novo no código do Discourse, eu provavelmente tentaria me conectar ao UploadCreator, mas isso pode estar muito errado.

mjbergman92 · Outubro 16, 2024, 5:45pm

Desenvolver um plugin do Discourse que se integrasse com o Paperless seria um bom começo.

Um plugin assim seria envolvido, para dizer o mínimo, como afirmado anteriormente.

Um plugin como este exigiria que a API do Discourse permitisse o manuseio externo de documentos. Isso está atualmente disponível?

Este plugin exigiria integração com as capacidades de busca oferecidas pela API do Discourse. Embora isso não seja trivial, isso foi feito por vários plugins existentes, nomeadamente o plugin discourse/discourse-algolia.

Outras Áreas a Considerar

Backups

Isso seria algo em que eu pessoalmente estaria interessado em começar. Comecei olhando para a API do Paperless junto com a engenharia reversa do projeto discourse/discourse-algolia… mas existem outros que se integram com a busca.

Alguma opinião sobre a escolha do Paperless? Gosto de como o projeto é ativo e da quantidade de issues que eles fecharam, além do número de issues que eles têm (atualmente 0).

dennisjbr · Setembro 23, 2025, 5:45am

Isso seria uma ENORME melhoria, especialmente para fóruns que carregam muita documentação via PDFs, digitalizações ou imagens. Se o escopo se limitar à pesquisa, o ideal seria extrair/criar texto e, em seguida, armazenar esse texto em uma coluna no postgres. Ao fazer isso, você pode aproveitar a busca de texto completo do postgres já existente.

No Linux, por exemplo, você poderia usar pdftotext para extrair o texto de um PDF e armazená-lo no banco de dados. Outra ideia (mais cara) é usar visão computacional para explicar/extrair o PDF ou a imagem para armazenamento no banco de dados.

Opiniões?

dennisjbr · Abril 21, 2026, 7:34am

Então, estive analisando isso e montando um wireframe (com IA) sobre a melhor forma de atingir esse objetivo. Algumas ideias me vieram à mente. Usar o Apache TIKA permitiria fazer OCR em quase qualquer tipo de arquivo com texto, incluindo imagens. Seria uma opção auto-hospedada. E/ou: usar o Gemini Flash 1.5 (por exemplo) não apenas para realizar OCR, mas também descrever as imagens visualizadas e analisadas, e então inserir esses dados em uma tabela/coluna do PostgreSQL para busca. Claro, isso exige um investimento considerável de tokens inicialmente para reprocessar todas as postagens com anexos/carregamentos, mas seria o mais útil. Suponho que você recebe o que paga?

Tópico		Respostas	Visualizações
Index PDFs for search Support	1	390	7 de Outubro de 2023
Searchable File Attachments Feature	12	2885	3 de Maio de 2022
Add support for searching pdf files in forum topics from AI personas Feature	3	143	12 de Dezembro de 2025
Browser-based PDF Viewer with search and highlighting capabilities Feature	9	2627	15 de Dezembro de 2020
Upload and discuss pdfs in composer Feature ai	5	314	24 de Fevereiro de 2025

Conteúdo do arquivo de índice para busca

Tópicos relacionados