Premièrement, votre truc d’IA est génial !
Deuxièmement, si nous publions des fichiers PDF, Word ou PowerPoint sur notre forum, les lira-t-il également et les divisera-t-il en vecteurs pour le RAG ?
Premièrement, votre truc d’IA est génial !
Deuxièmement, si nous publions des fichiers PDF, Word ou PowerPoint sur notre forum, les lira-t-il également et les divisera-t-il en vecteurs pour le RAG ?
Malheureusement, nous ne prenons pas encore en charge les PDF, c’est quelque chose auquel nous réfléchissons. Nous prenons en charge les fichiers TXT dans notre implémentation Persona et Tool RAG. Ainsi, tant que vous êtes en mesure de convertir le matériel source en fichiers texte, vous pouvez le consommer dans une persona.
Oui, c’est ce que nous avons fait, nous avons converti les pièces jointes en texte et les avons associées à chaque sujet.
Nous avons reçu ce retour plusieurs fois et envisageons d’étendre la prise en charge des extensions à l’avenir grâce à notre persona de bot IA et à notre implémentation de Tool RAG.
Pour le moment, nous convertissons simplement le fichier PowerPoint, Word ou PDF en texte et le joignons au même sujet auquel il appartient.
La prise en charge du PDF changerait absolument la donne pour de nombreuses communautés ! Étant donné qu’il semble s’agir d’une norme universelle pour les documents, nous nous retrouvons souvent à devoir reformaté des éléments en .txt pour RAG, ce qui est en effet très long ![]()
Nous terminons certains travaux sur les Embeddings et dès que cela sera terminé, la prochaine étape sera d’ajouter la prise en charge des PDF.
Wow, c’est super sympa. Bravo à l’équipe qui tient toujours compte des besoins de la communauté !
Qu’en est-il des fichiers JSON ? J’ai exporté une tonne de chats Discord que nous devons interroger dans l’IA afin de ne pas perdre ces informations ![]()
Je pensais au fine-tuning des modèles, mais je pense qu’ajouter les fichiers à Discourse serait mieux et plus simple pour tous ceux qui ont un cas d’utilisation similaire.
JSON n’est que du texte, nous le prenons donc déjà en charge.
C’est une représentation inefficace pour les LLM étant donné la grande quantité de duplication dans le format, donc cela gaspillerait quelques tokens, mais dans l’ensemble, cela fonctionnera. Je recommanderais d’exécuter un script dessus et de reformater pour améliorer les performances du RAG.
Il est très difficile de le faire automatiquement car le JSON peut être très imbriqué et choisir une représentation textuelle spécifique au domaine parfaite dépend fortement du domaine.
Merci Sam, puis-je vous interroger sur votre suggestion de maintenir un équilibre entre performance et prix lors de l’ajout d’environ 150 Mo de JSON (sur PDF) ?
C’est la première fois que je fais du RAG sur nos données et je vais bientôt commencer à apprendre le processus.
J’apprécie également tout éclairage de la part de la communauté.
Je dois dire que ce commit est magnifique ![]()
Y a-t-il un calendrier pour la sortie complète de cette fonctionnalité ? Je vois que c’est une fonctionnalité de site cachée pour l’instant
L’un des défis du travail derrière cela est de prendre en charge tous les types de PDF. Comme vous pouvez l’imaginer, certains PDF sont du texte brut et faciles à analyser. Cependant, il y en a avec des polices personnalisées, des images, des graphiques, un formatage non linéaire, etc.
Nous essayons de trouver un moyen de faire fonctionner tous les types de PDF et cela pourrait prendre un peu de temps.
Très bien dit. Je pense que DeepSeek change un peu ce paysage maintenant. L’exécution de modèles DeepSeek plus petits localement avec ollama peut désormais fournir une inférence de qualité et apporter une solution à ces préoccupations.
Désolé de vous déranger, @Saif, puis-je obtenir votre aide sur un sujet connexe ici : How to properly debug AI Personas? Merci !
Merci pour cette amélioration incroyable d’un plugin déjà exceptionnel.
La PR souligne que :
DigestRagUpload gère désormais les téléchargements de PDF et d’images. Elle utilise PdfToImages et ImageToText pour extraire le texte et créer des fragments de documents.Quand cette tâche s’exécutera-t-elle réellement ? Est-ce quelque chose que je dois lancer ?
Je viens de télécharger des fichiers txt et un PDF. Les fichiers txt sont indexés immédiatement, mais le PDF indique toujours « prêt à être indexé ».
Merci. ![]()
Le travail est en cours mais rencontre un bug :
Jobs::HandledExceptionWrapper : Wrapped NameError : variable locale non définie ou méthode `temp_dir’ pour une instance de DiscourseAi::Utils::PdfToImages
J’auto-héberge. C’est peut-être quelque chose que je peux approfondir ?
Je vous conseillerais d’attendre avant d’utiliser cette fonctionnalité car elle n’est pas encore techniquement disponible. Vous allez rencontrer des problèmes ici.
Je pense avoir trouvé le problème dans PdfToImages :
Confirmé, donnez-moi quelques jours ici, je veux aussi essayer l’extraction de texte directe, ce qui est quelque chose que nous pouvons activer par défaut.
Ensuite, l’extraction “riche” basée sur LLM peut être derrière des drapeaux.
Le problème avec de nombreux PDF est qu’ils sont énormes et peuvent être très exigeants pour les ressources du serveur. De plus, des choses comme Tesseract peuvent être un peu difficiles à installer - cela peut améliorer la qualité.
@sam, j’héberge moi-même et je me bats actuellement avec tesseract. Installation sans problème, mais il génère des erreurs qui ne semblent pas assez graves pour échouer la tâche :
Erreur lors du traitement OCR : /var/www/discourse/lib/discourse.rb:139:in `exec’ : Échec de l’OCR de l’image avec Tesseract
Estimation de la résolution à 337
Même avec cette erreur, le PDF apparaît dans Persona comme étant indexé.
Je ne suis pas sûr de ce que cela signifie en termes d’impact sur le RAG. Je vais approfondir ce week-end.
Merci de votre réponse si rapide.
Nous avons une évaluation (et je veux en ajouter d’autres), mais en gros, selon la qualité de l’image du modèle à texte, cela varie beaucoup si elle n’est pas ancrée.
La bonne nouvelle cependant est qu’avec le PDF, nous pouvons extraire le texte de manière sans perte, puis seulement nous appuyer sur le LLM pour l’améliorer si vous voulez le peaufiner. Je devrais avoir quelque chose la semaine prochaine.