搜索的索引文件内容

所以,我一直在研究这个问题,并利用 AI 草拟了一个实现方案。我想到几个思路。使用 Apache Tika 可以对我们几乎任何包含文本的文件类型(包括图片)进行 OCR 识别。这是一个自托管的选项。或者:使用 Gemini Flash 1.5(例如)不仅能执行 OCR,还能描述所见并分析的图片,然后将这些数据发布到 PostgreSQL 表或列中以便搜索。当然,这需要前期投入大量 token 来重新处理所有带附件或上传的帖子,但这将是最有用的方案。我想,这正应了那句“一分钱一分货”吧?

1 个赞