Oui, nous avons une logique de troncature qui dépend de la quantité de jetons autorisée par le LLM, nous avons défini le seuil assez haut pour les modèles gemini 1.5 (à 800k)
Cela devrait fonctionner, mais chaque interaction peut être très coûteuse.
Dans l’ensemble, j’ai constaté que limiter le contexte aide les modèles à rester plus concentrés, mais à long terme (dans 2 à 5 ans)… le RAG pourrait être inutile et nous aurons tellement de jetons et de concentration que cela n’aura pas d’importance.