Будет ли RAG поддерживать PDF-файлы в будущем?

Подтверждаю, дайте мне несколько дней, я также хочу попробовать прямое извлечение текста, что мы можем включить по умолчанию.

Затем «богатое» извлечение на основе LLM можно разместить за флагами.

Проблема многих PDF-файлов в том, что они огромны и могут сильно нагружать ресурсы сервера. Кроме того, такие инструменты, как Tesseract, могут быть довольно сложными в установке, но они могут улучшить качество.

5 лайков