Contenu du fichier d'index pour la recherche

ahuling · Août 7, 2015, 6:37

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

codinghorror · Août 7, 2015, 6:47

No plans for this at the moment.

DDo · Juin 11, 2020, 7:06

“Moi aussi”
Nous aimerions également que les pièces jointes (dans notre cas, des PDF) soient indexées pour le moteur de recherche.

sam · Juin 11, 2020, 7:40

Il s’agit clairement d’une fonctionnalité destinée aux clients de type entreprise. Nous n’avons pas de plans concrets avec un calendrier à ce stade ; je ne sais pas ce qui se passerait avec Postgres face à de très gros documents PDF.

C’est certainement un sujet que nous avons réfléchi au fil des années et que nous pourrions aborder au cours des prochaines années.

Craig_Robben · Mars 17, 2022, 8:58

Curieux de savoir si Discourse a ajouté la possibilité d’indexer et de rechercher des PDF ?

sam · Mars 17, 2022, 11:16

Pas encore, mais très réalisable à construire dans un plugin.

avandorp · Juin 29, 2022, 7:51

Lorsque vous développez un tel plugin : Par où commenceriez-vous ? N’étant totalement nouveau dans le code de Discourse, j’essaierais probablement de me connecter à UploadCreator, mais cela pourrait être très erroné.

mjbergman92 · Octobre 16, 2024, 5:45

Développer un plugin Discourse qui s’intégrerait à Paperless serait un bon début.

Un tel plugin serait complexe, pour le moins qu’on puisse dire, comme indiqué précédemment.

Un plugin comme celui-ci nécessiterait que l’API Discourse permette la gestion externe des documents. Est-ce actuellement disponible ?

Ce plugin nécessiterait une intégration avec les capacités de recherche offertes par l’API Discourse. Bien que cela ne soit pas trivial, cela a été fait par plusieurs plugins existants, notamment le plugin discourse/discourse-algolia.

Autres domaines à considérer

Sauvegardes

Ce serait quelque chose sur lequel je voudrais personnellement faire mes armes. J’ai commencé par examiner l’ API Paperless ainsi que par faire de l’ingénierie inverse sur le projet discourse/discourse-algolia… mais il existe d’autres projets qui s’intègrent à la recherche.

Des réflexions sur le choix de Paperless ? J’aime la façon dont le projet est actif et le nombre de problèmes qu’ils ont résolus en plus du nombre de problèmes ouverts (actuellement 0).

dennisjbr · Septembre 23, 2025, 5:45

Ce serait une ÉNORME amélioration, surtout pour les forums qui contiennent beaucoup de documentation via des PDF, des scans ou des images. Si la portée de cette fonctionnalité se limite à la recherche, alors idéalement, il suffirait d’extraire/créer du texte, puis de stocker ce texte dans une colonne de PostgreSQL. Lorsque vous faites cela, vous pouvez alors exploiter la recherche plein texte déjà en place dans PostgreSQL.

Sous Linux, par exemple, vous pourriez utiliser pdftotext pour extraire le texte d’un PDF et le stocker dans la base de données. Une autre idée (plus coûteuse) est d’utiliser la vision par IA pour expliquer/extraire le PDF ou l’image afin de le stocker dans la base de données.

Des réflexions ?

dennisjbr · Avril 21, 2026, 7:34

Donc, j’ai examiné la question et j’ai élaboré un wireframe (avec l’aide de l’IA) sur la meilleure façon de procéder. Plusieurs idées me viennent à l’esprit. L’utilisation d’Apache TIKA nous permettrait d’effectuer une reconnaissance optique de caractères (OCR) sur presque tous les types de fichiers contenant du texte, y compris les images. Ce serait une option auto-hébergée. Et/ou : utiliser Gemini Flash 1.5 (par exemple) non seulement pour effectuer l’OCR, mais aussi pour décrire les images analysées, puis stocker ces données dans une colonne d’une table PostgreSQL pour la recherche. Bien sûr, cela nécessite un investissement important en jetons au départ pour régénérer tous les messages avec pièces jointes/téléversements, mais cela serait le plus utile. Je suppose que l’on obtient ce pour quoi l’on paie ?

Sujet		Réponses	Vues
Index PDFs for search Support	1	389	Octobre 7, 2023
Searchable File Attachments Feature	12	2885	Mai 3, 2022
Add support for searching pdf files in forum topics from AI personas Feature	3	140	Décembre 12, 2025
Browser-based PDF Viewer with search and highlighting capabilities Feature	9	2621	Décembre 15, 2020
Upload and discuss pdfs in composer Feature ai	5	303	Février 24, 2025

Contenu du fichier d'index pour la recherche

Sujets connexes