Le RAG prendra-t-il en charge les fichiers PDF à l'avenir ?

@sam, j’héberge moi-même et je me bats actuellement avec tesseract. Installation sans problème, mais il génère des erreurs qui ne semblent pas assez graves pour échouer la tâche :

Erreur lors du traitement OCR : /var/www/discourse/lib/discourse.rb:139:in `exec’ : Échec de l’OCR de l’image avec Tesseract
Estimation de la résolution à 337

Même avec cette erreur, le PDF apparaît dans Persona comme étant indexé.

Je ne suis pas sûr de ce que cela signifie en termes d’impact sur le RAG. Je vais approfondir ce week-end.

Merci de votre réponse si rapide.

2 « J'aime »