Confirmé, donnez-moi quelques jours ici, je veux aussi essayer l’extraction de texte directe, ce qui est quelque chose que nous pouvons activer par défaut.
Ensuite, l’extraction “riche” basée sur LLM peut être derrière des drapeaux.
Le problème avec de nombreux PDF est qu’ils sont énormes et peuvent être très exigeants pour les ressources du serveur. De plus, des choses comme Tesseract peuvent être un peu difficiles à installer - cela peut améliorer la qualité.