Prise en charge des PDF dans Discourse AI (RAG)

sam · Février 18, 2025, 4:32

Ce guide explique comment implémenter et utiliser les capacités de traitement PDF dans discourse-ai, y compris l’extraction de texte de base et le traitement amélioré avec l’aide d’un LLM.

Niveau d’utilisateur requis : Administrateur

Résumé

Le plugin discourse-ai prend en charge le traitement PDF pour la Génération Augmentée par Récupération (RAG) dans deux modes distincts :

Extraction de texte de base
Traitement amélioré avec analyse par LLM

Extraction de texte de base

Ce mode fournit des capacités fondamentales de traitement PDF :

Extrait le contenu textuel à l’aide de la gemme pdf-reader
Prend en charge les fichiers jusqu’à 100 Mo
Fonctionne immédiatement après l’installation du plugin
Traite le contenu uniquement textuel (ignore les éléments visuels)

Traitement amélioré avec améliorations LLM

Ce mode nécessite une configuration spécifique et offre des capacités plus avancées.

Prérequis :

Abonnement au forfait Enterprise ou Discourse auto-hébergé
ImageMagick avec prise en charge de Ghostscript installé dans le conteneur
Paramètre du site ai_rag_images_enabled activé (masqué — doit être défini via la console Rails)
Un modèle LLM RAG configuré sur l’agent ou l’outil IA

Capacités :

Interprète les images, graphiques et diagrammes
Fournit un contexte à partir des éléments visuels
Traite les PDF page par page
Maintient la limite de taille de fichier de 100 Mo
Permet le téléchargement de fichiers image (png, jpg, jpeg) pour l’indexation RAG via l’extraction de texte basée sur LLM

Détails d’implémentation

Spécifications de traitement

Résolution de traitement des pages : 300 DPI
Délai d’attente de conversion d’image par page : 30 secondes
Nettoyage automatique des fichiers temporaires
Intégration complète avec les plongements (embeddings) de documents RAG

Flux de traitement

Téléchargement et validation du PDF
Extraction du contenu (mode de base ou amélioré)
Découpage du texte avec chevauchement configurable
Plongement et stockage des morceaux
Suivi de la progression via MessageBus

Limitations

Soyez conscient de ces contraintes lors de l’implémentation du traitement PDF :

Restrictions de taille de fichier :
- 100 Mo pour le traitement PDF existant
- 20 Mo pour les nouveaux téléchargements via l’interface d’administration
Le mode amélioré nécessite des ressources système supplémentaires
Les mises en page PDF complexes peuvent ne pas être interprétées parfaitement
Le traitement amélioré augmente considérablement le temps de traitement

Voir aussi :

MachineScholar · Février 18, 2025, 1:17

C’est une nouvelle vraiment incroyable. Merci l’équipe ! J’ai hâte que le traitement amélioré soit terminé. Ce sera essentiel pour alimenter les documents de recherche des LLM.

De plus, y a-t-il un plan pour permettre de faire du RAG “chat-avec-vos-PDFs” en téléchargeant des PDF dans un message privé de bot IA ou dans un sujet/post et en mentionnant le bot ?

hameedacpa · Février 24, 2025, 4:30

@sam Pouvez-vous fournir une vidéo simple pour expliquer cette excellente option, car ce que vous avez mentionné n’est pas suffisamment clair pour être mis en œuvre.

hameedacpa · Février 24, 2025, 8:42

Où puis-je trouver ce réglage

sam · Février 24, 2025, 10:18

C’est un réglage caché, vous devez utiliser la console, mais vous devez également configurer le conteneur, je vous recommande d’attendre quelques semaines de plus.

hameedacpa · Février 24, 2025, 2:47

Merci, j’apprécie votre travail fantastique

hameedacpa · Février 24, 2025, 10:49

Sur mon site web (Forum Arabe), j’ai fait un test en arabe en ajoutant une législation dans le premier post « sujet » puis j’ai posé des questions en utilisant l’IA, mais les réponses ne sont pas exactes et je pense que c’est parce que ce n’est pas du Ragging contextuel

محاسبة دوت نت – 24 Feb 25

قرار وزاري رقم (120) لسنة 2023م في شأن التعديلات بموجب الأحكام الانتقالية...

المحاسبة والضرائب والتشريعات - دولة الإمارات ضريبة الشركات - دولة الإمارات

بسم الله الرحمن الرحيم تحية طيبة وبعد، يشرفني أن أقدم لكم تحليلاً مفصلاً للنص الذي تفضلتم بعرضه، مع الربط بينه وبين معايير المحاسبة الدولية IFRS والمعايير الدولية للتدقيق ISA، بالإضافة إلى أحدث الأبحاث والممارسات المهنية والقواعد المحاسبية...

sam · Février 25, 2025, 1:00

Désolé, mais ce n’est pas comme ça que ça fonctionne, vous devez définir une persona ou un outil, puis y ajouter le téléchargement.

Il y a eu des discussions concernant la prise en charge de « télécharger et demander » ici : Upload and discuss pdfs in composer mais ce n’est pas encore pris en charge.

hameedacpa · Février 25, 2025, 6:45

Tout d’abord, merci beaucoup pour votre excellent travail. Je l’apprécie vraiment.

Après avoir exploré les paramètres et changé le modèle d’IA en Gemini-Flash-2.0, cela a très bien fonctionné pour moi. Voici la situation dans laquelle je me trouve :

Nous sommes une communauté d’auditeurs, de comptables et de conseillers fiscaux, et nous avions besoin d’un outil pour partager des lois pertinentes et susciter des discussions à leur sujet. Cette discussion devrait être très utile pour les visiteurs, car nous sommes des professionnels dans notre domaine. Nous ciblons le modèle d’IA pour qu’il vérifie et analyse la législation et réponde à nos questions. La grande expérience a conduit à la conclusion que nous pouvons vraiment discuter du contexte ajouté dans le premier message, et si le modèle d’IA est suffisamment intelligent, il répondra à nos questions avec une sortie de très haute qualité.
Merci encore et j’attends avec impatience le support PDF, car cela fera de Discourse le meilleur logiciel de forum.

sam · Février 28, 2025, 12:04

La dernière image de discourse prend en charge le mode avancé si quelqu’un souhaite tester

MachineScholar · Février 28, 2025, 12:01

Doit-il être activé via la console ? Je ne vois aucune option de mode avancé via l’interface utilisateur.

De plus, j’obtiens une erreur lorsque j’essaie de téléverser ce PDF. Il fait 34 Mo mais j’ai défini ma taille maximale de pièce jointe à 100 Mo (dans les paramètres d’administration et app.yml). Ce qui est étrange, c’est que j’ai une version compressée qui fait 16 Mo et elle se téléverse sans problème. Mais peut-être que le PDF plus volumineux est tout simplement trop complexe pour le moment ? Il y a beaucoup d’images, d’équations, etc.

Falco · Février 28, 2025, 3:17

Oui, vous devez saisir SiteSetting.ai_rag_images_enabled = true dans la console Rails pour l’activer.

sam · Février 28, 2025, 11:48

ma supposition est que certaines choses liées à nginx doivent également être modifiées dans le conteneur afin qu’il ne rejette pas.

Michael_Liu · Avril 17, 2025, 12:17

Salut @sam
J’ai actuellement des problèmes pour télécharger et indexer les pdf avec cette erreur : Job exception: undefined method `length’ for nil.

Je me demandais si l’erreur était liée aux paramètres dont nous avons discuté plus haut.
L’interface reste bloquée à 0% d’indexation et ne progresse pas.
Les détails de l’exception sont les suivants :

/var/www/discourse/plugins/discourse-ai/app/jobs/regular/digest_rag_upload.rb:81:in `chunk_document'
/var/www/discourse/plugins/discourse-ai/app/jobs/regular/digest_rag_upload.rb:40:in `block in execute'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/transaction.rb:616:in `block in within_new_transaction'
activesupport-7.2.2.1/lib/active_support/concurrency/null_lock.rb:9:in `synchronize'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/transaction.rb:613:in `within_new_transaction'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/database_statements.rb:361:in `transaction'
activerecord-7.2.2.1/lib/active_record/transactions.rb:234:in `block in transaction'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/connection_pool.rb:415:in `with_connection'
activerecord-7.2.2.1/lib/active_record/connection_handling.rb:296:in `with_connection'
activerecord-7.2.2.1/lib/active_record/transactions.rb:233:in `transaction'
/var/www/discourse/plugins/discourse-ai/app/jobs/regular/digest_rag_upload.rb:39:in `execute'
/var/www/discourse/app/jobs/base.rb:316:in `block (2 levels) in perform'
rails_multisite-6.1.0/lib/rails_multisite/connection_management/null_instance.rb:49:in `with_connection'
rails_multisite-6.1.0/lib/rails_multisite/connection_management.rb:21:in `with_connection'
/var/www/discourse/app/jobs/base.rb:303:in `block in perform'
/var/www/discourse/app/jobs/base.rb:299:in `each'
/var/www/discourse/app/jobs/base.rb:299:in `perform'
sidekiq-7.3.9/lib/sidekiq/processor.rb:220:in `execute_job'
sidekiq-7.3.9/lib/sidekiq/processor.rb:185:in `block (4 levels) in process'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:180:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:183:in `block in traverse'
/var/www/discourse/lib/sidekiq/pausable.rb:132:in `call'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:182:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:183:in `block in traverse'
sidekiq-7.3.9/lib/sidekiq/job/interrupt_handler.rb:9:in `call'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:182:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:183:in `block in traverse'
sidekiq-7.3.9/lib/sidekiq/metrics/tracking.rb:26:in `track'
sidekiq-7.3.9/lib/sidekiq/metrics/tracking.rb:134:in `call'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:182:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:173:in `invoke'
sidekiq-7.3.9/lib/sidekiq/processor.rb:184:in `block (3 levels) in process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:145:in `block (6 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_retry.rb:118:in `local'
sidekiq-7.3.9/lib/sidekiq/processor.rb:144:in `block (5 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/config.rb:39:in `block in <class:Config>'
sidekiq-7.3.9/lib/sidekiq/processor.rb:139:in `block (4 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/processor.rb:281:in `stats'
sidekiq-7.3.9/lib/sidekiq/processor.rb:134:in `block (3 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_logger.rb:15:in `call'
sidekiq-7.3.9/lib/sidekiq/processor.rb:133:in `block (2 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_retry.rb:85:in `global'
sidekiq-7.3.9/lib/sidekiq/processor.rb:132:in `block in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_logger.rb:40:in `prepare'
sidekiq-7.3.9/lib/sidekiq/processor.rb:131:in `dispatch'
sidekiq-7.3.9/lib/sidekiq/processor.rb:183:in `block (2 levels) in process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:182:in `handle_interrupt'
sidekiq-7.3.9/lib/sidekiq/processor.rb:182:in `block in process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:181:in `handle_interrupt'
sidekiq-7.3.9/lib/sidekiq/processor.rb:181:in `process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:86:in `process_one'
sidekiq-7.3.9/lib/sidekiq/processor.rb:76:in `run'
sidekiq-7.3.9/lib/sidekiq/component.rb:10:in `watchdog'
sidekiq-7.3.9/lib/sidekiq/component.rb:19:in `block in safe_thread'

Michael_Liu · Avril 17, 2025, 1:45

merci pour cette mise à jour incroyable,
je souhaite juste avoir une préoccupation ici, limite de 100 Mo pour chaque bot Persona AI ou pour tous les Personas

pacharanero · Avril 30, 2025, 9:52

Je suis nouveau sur Discourse AI mais un ancien de Discourse en général.

Très désireux d’essayer cela pour un cas d’utilisation spécifique sous forme de démo à ce stade.

J’ai activé le paramètre de site caché.

Rien dans SideKiq que je puisse voir. Comment puis-je voir si cela fonctionne du tout ?

Je suis conscient qu’il s’agit d’une fonctionnalité en pré-version et pas encore prête pour le grand public, cependant, ce serait formidable de pouvoir en faire l’expérience et l’essayer.

Très désireux de recevoir des indices, des astuces, des captures d’écran ou des recettes de la part des personnes qui essaient cela.

Neil_Evans2 · Juillet 15, 2025, 6:18

Je reçois cette erreur lorsque je demande au bot de résumer le contenu de certains PDF sur mon site. Je n’ai pas activé le traitement amélioré et j’utilise GPT 4.1. Des idées sur ce que je fais mal ?

Désolé, il semble que notre système ait rencontré un problème inattendu lors de la tentative de réponse.

Détails de l’erreur

{
“error”: {
“message”: “Un message d’assistant avec ‘tool_calls’ doit être suivi de messages d’outil répondant à chaque ‘tool_call_id’. Les tool_call_ids suivants n’avaient pas de messages de réponse : call_nrDCba5mt83oavbXfPq2BtEV”,
“type”: “invalid_request_error”,
“param”: “messages.[2].role”,
“code”: null
}
}

MachineScholar · Août 20, 2025, 7:12

Puis-je me renseigner sur l’état actuel de la prise en charge des PDF ?

MachineScholar · Août 20, 2025, 7:24

Lorsque vous configurez les tailles de téléchargement dans app.yml, elles s’appliquent à l’ensemble du site, donc à chaque persona.

kuaza · Novembre 22, 2025, 5:40

Y a-t-il des mises à jour sur cette question ? Je joins un PDF lors de l’initialisation d’une conversation avec l’IA, mais elle ne semble toujours pas le reconnaître. J’utilise actuellement GPT. Devrais-je peut-être envisager d’utiliser un modèle différent spécifiquement conçu pour le traitement des PDF ?

Sujet		Réponses	Vues
Will RAG Support PDF Files in the Future? Feature completed , ai , ai-bot	21	783	Mars 11, 2025
Upload and discuss pdfs in composer Feature ai	5	303	Février 24, 2025
Is the PDF upload feature for the new AI Bot UX still in development Support ai , ai-bot	2	144	Mai 9, 2025
Using PDF and attachment support with AI bots Site Management how-to , ai , ai-bot	0	348	Décembre 11, 2025
Allow ChatBot to read PDFs so it can join in a group discussion Feature ai , ai-bot	6	1001	Octobre 12, 2023