针对长上下文LLMs的提示注入作为RAG的替代方案?

是的,我们有依赖于 LLM 允许的令牌数量的截断逻辑,我们将 Gemini 1.5 模型的阈值设置得很高(800k)。

应该可行,但每次交互的成本可能非常高。

总的来说,我发现限制上下文有助于模型保持更专注,但从长远来看(2-5 年后)……检索增强生成(RAG)可能变得毫无意义,因为我们将拥有如此多的令牌和焦点,以至于它不再重要。