Инъекция промптов для LLM с длинным контекстом как альтернатива RAG?

Да, у нас есть логика усечения, которая зависит от количества токенов, разрешённых LLM. Для моделей Gemini 1.5 мы установили порог довольно высоко (до 800 тысяч).

Это должно работать, но каждое взаимодействие может быть очень дорогим.

В целом я обнаружил, что ограничение контекста помогает моделям оставаться более сфокусированными, но в долгосрочной перспективе (через 2–5 лет) RAG может оказаться бессмысленным, и у нас будет так много токенов и возможностей для фокусировки, что это перестанет иметь значение.