Contenido del archivo index para búsqueda

Así que he estado investigando esto y he preparado un esquema (con ayuda de IA) sobre cómo lograrlo de la mejor manera. Se me ocurren algunas ideas. Usar Apache TIKA nos permitiría realizar OCR en casi cualquier tipo de archivo que contenga texto, incluidas las imágenes. Sería una opción autoalojada. O bien: usar Gemini Flash 1.5 (por ejemplo) no solo para realizar OCR, sino también para describir las imágenes que se ven y analizan, y luego guardar esos datos en una tabla/columna de PostgreSQL para su búsqueda. Por supuesto, esto requiere una inversión considerable de tokens por adelantado para volver a procesar todas las publicaciones con archivos adjuntos o subidas, pero sería lo más útil. Supongo que obtienes lo que pagas.

1 me gusta