Sim, temos lógica de truncamento que depende da quantidade de tokens que o llm permite, definimos o limite bem alto para os modelos gemini 1.5 (em 800k)
Deve funcionar, mas cada interação pode ser muito cara.
No geral, descobri que limitar o contexto ajuda os modelos a se manterem mais focados, mas a longo prazo (daqui a 2-5 anos)… o rag pode ser inútil e teremos tantos tokens e foco que não importará.