長文脈LLMにおけるプロンプトインジェクションはRAGの代替となりうるか?

はい、LLMが許可するトークン量に依存する切り捨てロジックがあります。Gemini 1.5モデルではしきい値をかなり高く(800kに)設定しています。

機能するはずですが、すべてのやり取りが非常に高価になる可能性があります。

全体的に、コンテキストを制限することはモデルの集中力を維持するのに役立つことがわかりましたが、長期(2〜5年後)では…RAGは無意味になり、トークンとフォーカスが非常に多くなり、問題にならなくなるでしょう。