Contenu du fichier d'index pour la recherche

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

8 « J'aime »

No plans for this at the moment.

“Moi aussi”
Nous aimerions également que les pièces jointes (dans notre cas, des PDF) soient indexées pour le moteur de recherche.

3 « J'aime »

Il s’agit clairement d’une fonctionnalité destinée aux clients de type entreprise. Nous n’avons pas de plans concrets avec un calendrier à ce stade ; je ne sais pas ce qui se passerait avec Postgres face à de très gros documents PDF.

C’est certainement un sujet que nous avons réfléchi au fil des années et que nous pourrions aborder au cours des prochaines années.

4 « J'aime »

Curieux de savoir si Discourse a ajouté la possibilité d’indexer et de rechercher des PDF ?

1 « J'aime »

Pas encore, mais très réalisable à construire dans un plugin.

1 « J'aime »

Lorsque vous développez un tel plugin : Par où commenceriez-vous ? N’étant totalement nouveau dans le code de Discourse, j’essaierais probablement de me connecter à UploadCreator, mais cela pourrait être très erroné.

Développer un plugin Discourse qui s’intégrerait à Paperless serait un bon début.

Un tel plugin serait complexe, pour le moins qu’on puisse dire, comme indiqué précédemment.

Un plugin comme celui-ci nécessiterait que l’API Discourse permette la gestion externe des documents. Est-ce actuellement disponible ?

Ce plugin nécessiterait une intégration avec les capacités de recherche offertes par l’API Discourse. Bien que cela ne soit pas trivial, cela a été fait par plusieurs plugins existants, notamment le plugin discourse/discourse-algolia.

Autres domaines à considérer

  • Sauvegardes

Ce serait quelque chose sur lequel je voudrais personnellement faire mes armes. J’ai commencé par examiner l’ API Paperless ainsi que par faire de l’ingénierie inverse sur le projet discourse/discourse-algolia… mais il existe d’autres projets qui s’intègrent à la recherche.

Des réflexions sur le choix de Paperless ? J’aime la façon dont le projet est actif et le nombre de problèmes qu’ils ont résolus en plus du nombre de problèmes ouverts (actuellement 0).

2 « J'aime »

Ce serait une ÉNORME amélioration, surtout pour les forums qui contiennent beaucoup de documentation via des PDF, des scans ou des images. Si la portée de cette fonctionnalité se limite à la recherche, alors idéalement, il suffirait d’extraire/créer du texte, puis de stocker ce texte dans une colonne de PostgreSQL. Lorsque vous faites cela, vous pouvez alors exploiter la recherche plein texte déjà en place dans PostgreSQL.

Sous Linux, par exemple, vous pourriez utiliser pdftotext pour extraire le texte d’un PDF et le stocker dans la base de données. Une autre idée (plus coûteuse) est d’utiliser la vision par IA pour expliquer/extraire le PDF ou l’image afin de le stocker dans la base de données.

Des réflexions ?

2 « J'aime »

Donc, j’ai examiné la question et j’ai élaboré un wireframe (avec l’aide de l’IA) sur la meilleure façon de procéder. Plusieurs idées me viennent à l’esprit. L’utilisation d’Apache TIKA nous permettrait d’effectuer une reconnaissance optique de caractères (OCR) sur presque tous les types de fichiers contenant du texte, y compris les images. Ce serait une option auto-hébergée. Et/ou : utiliser Gemini Flash 1.5 (par exemple) non seulement pour effectuer l’OCR, mais aussi pour décrire les images analysées, puis stocker ces données dans une colonne d’une table PostgreSQL pour la recherche. Bien sûr, cela nécessite un investissement important en jetons au départ pour régénérer tous les messages avec pièces jointes/téléversements, mais cela serait le plus utile. Je suppose que l’on obtient ce pour quoi l’on paie ?

1 « J'aime »