Подтверждаю, дайте мне несколько дней, я также хочу попробовать прямое извлечение текста, что мы можем включить по умолчанию.
Затем «богатое» извлечение на основе LLM можно разместить за флагами.
Проблема многих PDF-файлов в том, что они огромны и могут сильно нагружать ресурсы сервера. Кроме того, такие инструменты, как Tesseract, могут быть довольно сложными в установке, но они могут улучшить качество.