RAG 未来会支持 PDF 文件吗?

JSON 本身就是文本,所以我们已经支持了。

对于大型语言模型来说,它是一种效率低下的表示形式,因为该格式内部存在大量重复,会浪费一些 token,但总体上是可行的。我建议运行一个脚本对其进行处理并重新格式化,以提高 RAG 性能。

这很难自动完成,因为 JSON 可能嵌套很深,选择一种完美的特定领域文本表示形式高度依赖于该领域。

3 个赞