Contenuti del file di indice per la ricerca

Quindi, ho esaminato la questione e ho preparato una bozza (con l’aiuto dell’IA) su come raggiungere al meglio questo obiettivo. Mi vengono in mente alcune idee. Utilizzare Apache TIKA ci permetterebbe di eseguire l’OCR su quasi tutti i tipi di file contenenti testo, comprese le immagini. Sarebbe un’opzione self-hosted. E/O: Utilizzare Gemini Flash 1.5 (ad esempio) non solo per eseguire l’OCR, ma anche per descrivere le immagini analizzate, per poi archiviare tali dati in una colonna di una tabella PostgreSQL per la ricerca. Naturalmente, questo richiede un investimento significativo di token in anticipo per rielaborare tutti i post con allegati/caricamenti, ma sarebbe il più utile. Immagino che si ottiene ciò per cui si paga?

1 Mi Piace