Confirmado, deme unos días aquí, también quiero probar la extracción de texto directo, que es algo que podemos habilitar por defecto.
Luego, la extracción “enriquecida” basada en LLM puede estar detrás de indicadores.
El problema con muchos PDF es que son enormes y pueden consumir muchos recursos del servidor. Además, cosas como Tesseract pueden ser un poco complicadas de instalar; puede mejorar la calidad.