Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
No plans for this at the moment.
“Me, too”
We’d like to have attachments (in our case, PDF’s) indexed for the search engine, too.
This is very much an enterprise customer type feature. We don’t have concrete plans here with a timeline, I am uncertain what would happen to Postgres with huge PDF documents.
Certainly something we have thought about over the years and may get to over the next few years.
Curioso se o Discourse adicionou a capacidade de indexar e pesquisar PDFs ainda?
Ainda não, mas é muito viável construir em um plugin.
Ao desenvolver um plugin assim: Por onde você começaria? Sendo totalmente novo no código do Discourse, eu provavelmente tentaria me conectar ao UploadCreator, mas isso pode estar muito errado.
Desenvolver um plugin do Discourse que se integrasse com o Paperless seria um bom começo.
Um plugin assim seria envolvido, para dizer o mínimo, como afirmado anteriormente.
Um plugin como este exigiria que a API do Discourse permitisse o manuseio externo de documentos. Isso está atualmente disponível?
Este plugin exigiria integração com as capacidades de busca oferecidas pela API do Discourse. Embora isso não seja trivial, isso foi feito por vários plugins existentes, nomeadamente o plugin discourse/discourse-algolia.
Outras Áreas a Considerar
Isso seria algo em que eu pessoalmente estaria interessado em começar. Comecei olhando para a API do Paperless junto com a engenharia reversa do projeto discourse/discourse-algolia… mas existem outros que se integram com a busca.
Alguma opinião sobre a escolha do Paperless? Gosto de como o projeto é ativo e da quantidade de issues que eles fecharam, além do número de issues que eles têm (atualmente 0).
Isso seria uma ENORME melhoria, especialmente para fóruns que carregam muita documentação via PDFs, digitalizações ou imagens. Se o escopo se limitar à pesquisa, o ideal seria extrair/criar texto e, em seguida, armazenar esse texto em uma coluna no postgres. Ao fazer isso, você pode aproveitar a busca de texto completo do postgres já existente.
No Linux, por exemplo, você poderia usar pdftotext para extrair o texto de um PDF e armazená-lo no banco de dados. Outra ideia (mais cara) é usar visão computacional para explicar/extrair o PDF ou a imagem para armazenamento no banco de dados.
Opiniões?