Só para sua informação, o problema começou quando o serviço de tradução travou e esgotou os tokens:
DiscourseAi::Completions::Endpoints::OpenAi: status: 429 - corpo: {“error”:{“message”:“Limite de taxa atingido para o modelo
openai/gpt-oss-120bna organizaçãoorg_01kccx1be8fffaz5sbe17, nível de serviçoon_demand, em tokens por dia (TPD): Limite 200000, Usado 193487, Solicitado 7464. Por favor, tente novamente em 6m50.832s. Precisa de mais tokens? Atualize para o nível Dev hoje em https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}
Então, pausei o serviço por 24 horas para que os limites diários de taxa fossem redefinidos. Após reiniciá-lo, notei este erro:
DiscourseAi::Completions::Endpoints::OpenAi: status: 413 - corpo: {“error”:{“message”:“Solicitação muito grande para o modelo
openai/gpt-oss-120bna organizaçãoorg_01kccx1be8fffaz5sbe17, nível de serviçoon_demand, em tokens por minuto (TPM): Limite 8000, Solicitado 8102, por favor reduza o tamanho da sua mensagem e tente novamente. Precisa de mais tokens? Atualize para o nível Dev hoje em https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}
Em seguida, reduzi os tokens de saída máximos de 7000 para 6800 na configuração do LLM e o serviço voltou a funcionar.
O que estou deixando passar? Você está sugerindo que isso está relacionado à janela de contexto e não tem nada a ver com os tokens de saída máximos? Estou apenas tentando entender como alinhar os números de configuração do Groq / limites do modelo com as configurações de LLM do Discourse.