Conteúdo do arquivo de índice para busca

Então, estive analisando isso e montando um wireframe (com IA) sobre a melhor forma de atingir esse objetivo. Algumas ideias me vieram à mente. Usar o Apache TIKA permitiria fazer OCR em quase qualquer tipo de arquivo com texto, incluindo imagens. Seria uma opção auto-hospedada. E/ou: usar o Gemini Flash 1.5 (por exemplo) não apenas para realizar OCR, mas também descrever as imagens visualizadas e analisadas, e então inserir esses dados em uma tabela/coluna do PostgreSQL para busca. Claro, isso exige um investimento considerável de tokens inicialmente para reprocessar todas as postagens com anexos/carregamentos, mas seria o mais útil. Suponho que você recebe o que paga?

1 curtida