搜索的索引文件内容

这将是一个巨大的改进,特别是对于那些通过 PDF、扫描件或图像承载大量文档的论坛。如果此范围仅限于搜索,那么理想情况下,您只需提取/创建文本,然后将该文本存储在 PostgreSQL 的列中。完成此操作后,您就可以利用 PostgreSQL 中已有的全文搜索功能。

例如,在 Linux 中,您可以使用 pdftotext 从 PDF 中提取文本并将其存储在数据库中。另一个(更昂贵的)想法是使用 AI 视觉来解释/提取 PDF 或图像,以便存储在数据库中。

有什么想法吗?

2 个赞