@sam, j’héberge moi-même et je me bats actuellement avec tesseract. Installation sans problème, mais il génère des erreurs qui ne semblent pas assez graves pour échouer la tâche :
Erreur lors du traitement OCR : /var/www/discourse/lib/discourse.rb:139:in `exec’ : Échec de l’OCR de l’image avec Tesseract
Estimation de la résolution à 337
Même avec cette erreur, le PDF apparaît dans Persona comme étant indexé.
Je ne suis pas sûr de ce que cela signifie en termes d’impact sur le RAG. Je vais approfondir ce week-end.
Merci de votre réponse si rapide.