Confermato, dammi qualche giorno qui, voglio anche provare l’estrazione diretta del testo che è qualcosa che possiamo abilitare per impostazione predefinita.
Quindi l’“estrazione avanzata” basata su LLM può essere dietro flag.
Il problema con molti PDF è che sono enormi e possono gravare molto sulle risorse del server. Inoltre, cose come tesseract possono essere un po’ complicate da installare - può migliorare la qualità.