Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
No plans for this at the moment.
“Me, too”
We’d like to have attachments (in our case, PDF’s) indexed for the search engine, too.
This is very much an enterprise customer type feature. We don’t have concrete plans here with a timeline, I am uncertain what would happen to Postgres with huge PDF documents.
Certainly something we have thought about over the years and may get to over the next few years.
Curieux de savoir si Discourse a ajouté la possibilité d’indexer et de rechercher des PDF ?
Pas encore, mais très réalisable à construire dans un plugin.
Lorsque vous développez un tel plugin : Par où commenceriez-vous ? N’étant totalement nouveau dans le code de Discourse, j’essaierais probablement de me connecter à UploadCreator, mais cela pourrait être très erroné.
Développer un plugin Discourse qui s’intégrerait à Paperless serait un bon début.
Un tel plugin serait complexe, pour le moins qu’on puisse dire, comme indiqué précédemment.
Un plugin comme celui-ci nécessiterait que l’API Discourse permette la gestion externe des documents. Est-ce actuellement disponible ?
Ce plugin nécessiterait une intégration avec les capacités de recherche offertes par l’API Discourse. Bien que cela ne soit pas trivial, cela a été fait par plusieurs plugins existants, notamment le plugin discourse/discourse-algolia.
Autres domaines à considérer
Ce serait quelque chose sur lequel je voudrais personnellement faire mes armes. J’ai commencé par examiner l’ API Paperless ainsi que par faire de l’ingénierie inverse sur le projet discourse/discourse-algolia… mais il existe d’autres projets qui s’intègrent à la recherche.
Des réflexions sur le choix de Paperless ? J’aime la façon dont le projet est actif et le nombre de problèmes qu’ils ont résolus en plus du nombre de problèmes ouverts (actuellement 0).
Ce serait une ÉNORME amélioration, surtout pour les forums qui contiennent beaucoup de documentation via des PDF, des scans ou des images. Si la portée de cette fonctionnalité se limite à la recherche, alors idéalement, il suffirait d’extraire/créer du texte, puis de stocker ce texte dans une colonne de PostgreSQL. Lorsque vous faites cela, vous pouvez alors exploiter la recherche plein texte déjà en place dans PostgreSQL.
Sous Linux, par exemple, vous pourriez utiliser pdftotext pour extraire le texte d’un PDF et le stocker dans la base de données. Une autre idée (plus coûteuse) est d’utiliser la vision par IA pour expliquer/extraire le PDF ou l’image afin de le stocker dans la base de données.
Des réflexions ?