Bestätigt, geben Sie mir hier ein paar Tage, ich möchte auch die direkte Textextraktion ausprobieren, die wir standardmäßig aktivieren können.
Dann kann die „reiche“ LLM-basierte Extraktion hinter Flags erfolgen.
Das Problem bei vielen PDFs ist, dass sie riesig sind und Serverressourcen stark beanspruchen können. Außerdem ist die Installation von Tesseract etwas knifflig – es kann die Qualität verbessern.