Sì, abbiamo una logica di troncamento che dipende dalla quantità di token consentiti dall’LLM, abbiamo impostato la soglia piuttosto alta per i modelli gemini 1.5 (a 800k)
Dovrebbe funzionare, ma ogni interazione può essere molto costosa.
Nel complesso ho scoperto che limitare il contesto aiuta i modelli a rimanere più concentrati, ma a lungo termine (tra 2-5 anni)… il RAG potrebbe essere inutile e avremo così tanti token e concentrazione che non avrà importanza.