Iniezione di prompt per LLM a lungo contesto come alternativa a RAG?

Sì, abbiamo una logica di troncamento che dipende dalla quantità di token consentiti dall’LLM, abbiamo impostato la soglia piuttosto alta per i modelli gemini 1.5 (a 800k)

Dovrebbe funzionare, ma ogni interazione può essere molto costosa.

Nel complesso ho scoperto che limitare il contesto aiuta i modelli a rimanere più concentrati, ma a lungo termine (tra 2-5 anni)… il RAG potrebbe essere inutile e avremo così tanti token e concentrazione che non avrà importanza.