@sam, ich hoste selbst und kämpfe gerade mit Tesseract. Installation ohne Probleme, aber es wirft Fehler aus, die nicht ernst genug zu sein scheinen, um den Job fehlschlagen zu lassen:
Fehler bei der OCR-Verarbeitung: /var/www/discourse/lib/discourse.rb:139:in `exec’: Fehler beim OCR von Bildern mit Tesseract
Auflösung wird als 337 geschätzt
Selbst mit diesem Fehler wird das PDF in Persona als indiziert angezeigt.
Ich bin mir nicht sicher, was das für Auswirkungen auf RAG hat. Ich werde am Wochenende tiefer graben.
Vielen Dank für die schnelle Antwort.