Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
No plans for this at the moment.
“Moi aussi”
Nous aimerions également que les pièces jointes (dans notre cas, des PDF) soient indexées pour le moteur de recherche.
Il s’agit clairement d’une fonctionnalité destinée aux clients de type entreprise. Nous n’avons pas de plans concrets avec un calendrier à ce stade ; je ne sais pas ce qui se passerait avec Postgres face à de très gros documents PDF.
C’est certainement un sujet que nous avons réfléchi au fil des années et que nous pourrions aborder au cours des prochaines années.
Curieux de savoir si Discourse a ajouté la possibilité d’indexer et de rechercher des PDF ?
Pas encore, mais très réalisable à construire dans un plugin.
Lorsque vous développez un tel plugin : Par où commenceriez-vous ? N’étant totalement nouveau dans le code de Discourse, j’essaierais probablement de me connecter à UploadCreator, mais cela pourrait être très erroné.
Développer un plugin Discourse qui s’intégrerait à Paperless serait un bon début.
Un tel plugin serait complexe, pour le moins qu’on puisse dire, comme indiqué précédemment.
Un plugin comme celui-ci nécessiterait que l’API Discourse permette la gestion externe des documents. Est-ce actuellement disponible ?
Ce plugin nécessiterait une intégration avec les capacités de recherche offertes par l’API Discourse. Bien que cela ne soit pas trivial, cela a été fait par plusieurs plugins existants, notamment le plugin discourse/discourse-algolia.
Autres domaines à considérer
Ce serait quelque chose sur lequel je voudrais personnellement faire mes armes. J’ai commencé par examiner l’ API Paperless ainsi que par faire de l’ingénierie inverse sur le projet discourse/discourse-algolia… mais il existe d’autres projets qui s’intègrent à la recherche.
Des réflexions sur le choix de Paperless ? J’aime la façon dont le projet est actif et le nombre de problèmes qu’ils ont résolus en plus du nombre de problèmes ouverts (actuellement 0).
Ce serait une ÉNORME amélioration, surtout pour les forums qui contiennent beaucoup de documentation via des PDF, des scans ou des images. Si la portée de cette fonctionnalité se limite à la recherche, alors idéalement, il suffirait d’extraire/créer du texte, puis de stocker ce texte dans une colonne de PostgreSQL. Lorsque vous faites cela, vous pouvez alors exploiter la recherche plein texte déjà en place dans PostgreSQL.
Sous Linux, par exemple, vous pourriez utiliser pdftotext pour extraire le texte d’un PDF et le stocker dans la base de données. Une autre idée (plus coûteuse) est d’utiliser la vision par IA pour expliquer/extraire le PDF ou l’image afin de le stocker dans la base de données.
Des réflexions ?