Le RAG prendra-t-il en charge les fichiers PDF à l'avenir ?

silvacarl · Septembre 30, 2024, 5:35

Premièrement, votre truc d’IA est génial !

Deuxièmement, si nous publions des fichiers PDF, Word ou PowerPoint sur notre forum, les lira-t-il également et les divisera-t-il en vecteurs pour le RAG ?

sam · Octobre 1, 2024, 5:38

Malheureusement, nous ne prenons pas encore en charge les PDF, c’est quelque chose auquel nous réfléchissons. Nous prenons en charge les fichiers TXT dans notre implémentation Persona et Tool RAG. Ainsi, tant que vous êtes en mesure de convertir le matériel source en fichiers texte, vous pouvez le consommer dans une persona.

silvacarl · Octobre 7, 2024, 8:39

Oui, c’est ce que nous avons fait, nous avons converti les pièces jointes en texte et les avons associées à chaque sujet.

Saif · Octobre 8, 2024, 2:54

Nous avons reçu ce retour plusieurs fois et envisageons d’étendre la prise en charge des extensions à l’avenir grâce à notre persona de bot IA et à notre implémentation de Tool RAG.

silvacarl · Octobre 8, 2024, 6:43

Pour le moment, nous convertissons simplement le fichier PowerPoint, Word ou PDF en texte et le joignons au même sujet auquel il appartient.

MachineScholar · Novembre 12, 2024, 4:04

La prise en charge du PDF changerait absolument la donne pour de nombreuses communautés ! Étant donné qu’il semble s’agir d’une norme universelle pour les documents, nous nous retrouvons souvent à devoir reformaté des éléments en .txt pour RAG, ce qui est en effet très long

Saif · Novembre 12, 2024, 7:26

Nous terminons certains travaux sur les Embeddings et dès que cela sera terminé, la prochaine étape sera d’ajouter la prise en charge des PDF.

satonotdead · Novembre 12, 2024, 10:27

Wow, c’est super sympa. Bravo à l’équipe qui tient toujours compte des besoins de la communauté !

Qu’en est-il des fichiers JSON ? J’ai exporté une tonne de chats Discord que nous devons interroger dans l’IA afin de ne pas perdre ces informations

Je pensais au fine-tuning des modèles, mais je pense qu’ajouter les fichiers à Discourse serait mieux et plus simple pour tous ceux qui ont un cas d’utilisation similaire.

sam · Novembre 13, 2024, 12:11

JSON n’est que du texte, nous le prenons donc déjà en charge.

C’est une représentation inefficace pour les LLM étant donné la grande quantité de duplication dans le format, donc cela gaspillerait quelques tokens, mais dans l’ensemble, cela fonctionnera. Je recommanderais d’exécuter un script dessus et de reformater pour améliorer les performances du RAG.

Il est très difficile de le faire automatiquement car le JSON peut être très imbriqué et choisir une représentation textuelle spécifique au domaine parfaite dépend fortement du domaine.

satonotdead · Novembre 15, 2024, 9:45

Merci Sam, puis-je vous interroger sur votre suggestion de maintenir un équilibre entre performance et prix lors de l’ajout d’environ 150 Mo de JSON (sur PDF) ?

C’est la première fois que je fais du RAG sur nos données et je vais bientôt commencer à apprendre le processus.

J’apprécie également tout éclairage de la part de la communauté.

MachineScholar · Février 14, 2025, 10:19

Je dois dire que ce commit est magnifique

github.com/discourse/discourse-ai

FEATURE: PDF support for rag pipeline (#1118)

committed 01:15AM - 14 Feb 25 UTC

SamSaffron

+1329 -141

This PR introduces several enhancements and refactorings to the AI Persona and R…AG (Retrieval-Augmented Generation) functionalities within the discourse-ai plugin. Here's a breakdown of the changes: **1. LLM Model Association for RAG and Personas:** - **New Database Columns:** Adds `rag_llm_model_id` to both `ai_personas` and `ai_tools` tables. This allows specifying a dedicated LLM for RAG indexing, separate from the persona's primary LLM. Adds `default_llm_id` and `question_consolidator_llm_id` to `ai_personas`. - **Migration:** Includes a migration (`20250210032345_migrate_persona_to_llm_model_id.rb`) to populate the new `default_llm_id` and `question_consolidator_llm_id` columns in `ai_personas` based on the existing `default_llm` and `question_consolidator_llm` string columns, and a post migration to remove the latter. - **Model Changes:** The `AiPersona` and `AiTool` models now `belong_to` an `LlmModel` via `rag_llm_model_id`. The `LlmModel.proxy` method now accepts an `LlmModel` instance instead of just an identifier. `AiPersona` now has `default_llm_id` and `question_consolidator_llm_id` attributes. - **UI Updates:** The AI Persona and AI Tool editors in the admin panel now allow selecting an LLM for RAG indexing (if PDF/image support is enabled). The RAG options component displays an LLM selector. - **Serialization:** The serializers (`AiCustomToolSerializer`, `AiCustomToolListSerializer`, `LocalizedAiPersonaSerializer`) have been updated to include the new `rag_llm_model_id`, `default_llm_id` and `question_consolidator_llm_id` attributes. **2. PDF and Image Support for RAG:** - **Site Setting:** Introduces a new hidden site setting, `ai_rag_pdf_images_enabled`, to control whether PDF and image files can be indexed for RAG. This defaults to `false`. - **File Upload Validation:** The `RagDocumentFragmentsController` now checks the `ai_rag_pdf_images_enabled` setting and allows PDF, PNG, JPG, and JPEG files if enabled. Error handling is included for cases where PDF/image indexing is attempted with the setting disabled. - **PDF Processing:** Adds a new utility class, `DiscourseAi::Utils::PdfToImages`, which uses ImageMagick (`magick`) to convert PDF pages into individual PNG images. A maximum PDF size and conversion timeout are enforced. - **Image Processing:** A new utility class, `DiscourseAi::Utils::ImageToText`, is included to handle OCR for the images and PDFs. - **RAG Digestion Job:** The `DigestRagUpload` job now handles PDF and image uploads. It uses `PdfToImages` and `ImageToText` to extract text and create document fragments. - **UI Updates:** The RAG uploader component now accepts PDF and image file types if `ai_rag_pdf_images_enabled` is true. The UI text is adjusted to indicate supported file types. **3. Refactoring and Improvements:** - **LLM Enumeration:** The `DiscourseAi::Configuration::LlmEnumerator` now provides a `values_for_serialization` method, which returns a simplified array of LLM data (id, name, vision_enabled) suitable for use in serializers. This avoids exposing unnecessary details to the frontend. - **AI Helper:** The `AiHelper::Assistant` now takes optional `helper_llm` and `image_caption_llm` parameters in its constructor, allowing for greater flexibility. - **Bot and Persona Updates:** Several updates were made across the codebase, changing the string based association to a LLM to the new model based. - **Audit Logs:** The `DiscourseAi::Completions::Endpoints::Base` now formats raw request payloads as pretty JSON for easier auditing. - **Eval Script:** An evaluation script is included. **4. Testing:** - The PR introduces a new eval system for LLMs, this allows us to test how functionality works across various LLM providers. This lives in `/evals`

Y a-t-il un calendrier pour la sortie complète de cette fonctionnalité ? Je vois que c’est une fonctionnalité de site cachée pour l’instant

Saif · Février 14, 2025, 11:22

L’un des défis du travail derrière cela est de prendre en charge tous les types de PDF. Comme vous pouvez l’imaginer, certains PDF sont du texte brut et faciles à analyser. Cependant, il y en a avec des polices personnalisées, des images, des graphiques, un formatage non linéaire, etc.

Nous essayons de trouver un moyen de faire fonctionner tous les types de PDF et cela pourrait prendre un peu de temps.

Overgrow · Février 14, 2025, 12:43

Très bien dit. Je pense que DeepSeek change un peu ce paysage maintenant. L’exécution de modèles DeepSeek plus petits localement avec ollama peut désormais fournir une inférence de qualité et apporter une solution à ces préoccupations.

Désolé de vous déranger, @Saif, puis-je obtenir votre aide sur un sujet connexe ici : How to properly debug AI Personas? Merci !

Yenwod · Février 14, 2025, 2:07

Merci pour cette amélioration incroyable d’un plugin déjà exceptionnel.

La PR souligne que :

Tâche de digestion RAG : La tâche DigestRagUpload gère désormais les téléchargements de PDF et d’images. Elle utilise PdfToImages et ImageToText pour extraire le texte et créer des fragments de documents.

Quand cette tâche s’exécutera-t-elle réellement ? Est-ce quelque chose que je dois lancer ?

Je viens de télécharger des fichiers txt et un PDF. Les fichiers txt sont indexés immédiatement, mais le PDF indique toujours « prêt à être indexé ».

Merci.

Yenwod · Février 14, 2025, 5:35

Le travail est en cours mais rencontre un bug :

Jobs::HandledExceptionWrapper : Wrapped NameError : variable locale non définie ou méthode `temp_dir’ pour une instance de DiscourseAi::Utils::PdfToImages

J’auto-héberge. C’est peut-être quelque chose que je peux approfondir ?

Saif · Février 14, 2025, 5:41

Je vous conseillerais d’attendre avant d’utiliser cette fonctionnalité car elle n’est pas encore techniquement disponible. Vous allez rencontrer des problèmes ici.

Yenwod · Février 14, 2025, 5:41

Je pense avoir trouvé le problème dans PdfToImages :

sam · Février 14, 2025, 11:52

Confirmé, donnez-moi quelques jours ici, je veux aussi essayer l’extraction de texte directe, ce qui est quelque chose que nous pouvons activer par défaut.

Ensuite, l’extraction “riche” basée sur LLM peut être derrière des drapeaux.

Le problème avec de nombreux PDF est qu’ils sont énormes et peuvent être très exigeants pour les ressources du serveur. De plus, des choses comme Tesseract peuvent être un peu difficiles à installer - cela peut améliorer la qualité.

Yenwod · Février 15, 2025, 12:44

@sam, j’héberge moi-même et je me bats actuellement avec tesseract. Installation sans problème, mais il génère des erreurs qui ne semblent pas assez graves pour échouer la tâche :

Erreur lors du traitement OCR : /var/www/discourse/lib/discourse.rb:139:in `exec’ : Échec de l’OCR de l’image avec Tesseract
Estimation de la résolution à 337

Même avec cette erreur, le PDF apparaît dans Persona comme étant indexé.

Je ne suis pas sûr de ce que cela signifie en termes d’impact sur le RAG. Je vais approfondir ce week-end.

Merci de votre réponse si rapide.

sam · Février 15, 2025, 3:16

Nous avons une évaluation (et je veux en ajouter d’autres), mais en gros, selon la qualité de l’image du modèle à texte, cela varie beaucoup si elle n’est pas ancrée.

La bonne nouvelle cependant est qu’avec le PDF, nous pouvons extraire le texte de manière sans perte, puis seulement nous appuyer sur le LLM pour l’améliorer si vous voulez le peaufiner. Je devrais avoir quelque chose la semaine prochaine.

Sujet		Réponses	Vues
PDF support in Discourse AI (RAG) Site Management how-to , ai	20	807	Décembre 5, 2025
Is the PDF upload feature for the new AI Bot UX still in development Support ai-bot , ai	3	89	Mai 9, 2025
Using PDF and attachment support with AI bots Site Management ai-bot , how-to , ai	0	143	Décembre 11, 2025
Upload and discuss pdfs in composer Feature ai	5	221	Février 24, 2025
Allow ChatBot to read PDFs so it can join in a group discussion Feature ai , ai-bot	6	954	Octobre 12, 2023

Le RAG prendra-t-il en charge les fichiers PDF à l'avenir ?

Sujets connexes