Prompt-Injection für LLMs mit langem Kontext als Alternative zu RAG?

Ja, wir haben eine Trunkierungslogik, die von der Anzahl der Tokens abhängt, die das LLM zulässt. Wir haben den Schwellenwert für Gemini 1.5-Modelle recht hoch angesetzt (bei 800.000).

Es sollte funktionieren, aber jede Interaktion kann sehr teuer werden.

Insgesamt habe ich festgestellt, dass die Begrenzung des Kontexts den Modellen hilft, fokussierter zu bleiben, aber langfristig (in 2-5 Jahren) … könnte RAG sinnlos werden und wir werden einfach so viele Tokens und Fokus haben, dass es keine Rolle mehr spielt.