¿Inyección de prompts para LLMs de contexto largo como alternativa a RAG?

Sí, tenemos lógica de truncamiento que depende de la cantidad de tokens que permite el llm, establecimos el umbral bastante alto para los modelos gemini 1.5 (en 800 k)

Debería funcionar, pero cada interacción puede ser muy cara.

En general, he descubierto que limitar el contexto ayuda a los modelos a mantenerse más enfocados, pero a largo plazo (dentro de 2-5 años)… rag puede ser inútil y simplemente tendremos tantos tokens y enfoque que no importará.