Contenido del archivo index para búsqueda

Esto sería una ENORME mejora, especialmente para aquellos foros que contienen mucha documentación a través de PDFs, escaneos o imágenes. Si el alcance de esto se limita a la búsqueda, entonces idealmente solo necesitaría extraer/crear texto y luego almacenar ese texto en una columna en postgres. Cuando haga eso, podrá aprovechar el texto completo de postgres ya implementado.

En Linux, por ejemplo, podría usar pdftotext para extraer el texto de un PDF y almacenarlo en la base de datos. Otra idea (más costosa) es usar IA de visión para explicar/extraer el PDF o la imagen para almacenarla en la base de datos.

¿Opiniones?

2 Me gusta