A janela de contexto está definida para 130k
Mas isso me traz de volta ao mesmo problema. O limite do modelo no Groq é 131.072; eu já o configurei para 130.000. Não deveria ser necessário fazer experimentos com os limites para descobrir quanto o Discourse está enviando. O Discourse deveria ser capaz de operar dentro dos limites fornecidos pela configuração do LLM.
O que não entendo é por que reduzir os tokens de saída máximos parece resolver o problema. Não fiz nenhuma alteração na janela de contexto, apenas reduzi ainda mais os tokens de saída máximos e começou a funcionar, retomando de onde parou.
