Solo per tua informazione, il problema è iniziato quando il servizio di traduzione si è bloccato e ha esaurito i token:
DiscourseAi::Completions::Endpoints::OpenAi: status: 429 - body: {“error”:{“message”:“Limite di velocità raggiunto per il modello
openai/gpt-oss-120bnell’organizzazioneorg_01kccx1be8fffaz5sbe17livello di servizioon_demandper i token al giorno (TPD): Limite 200000, Utilizzati 193487, Richiesti 7464. Riprova tra 6m50.832s. Hai bisogno di più token? Passa al livello Dev oggi su https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}
Poi ho messo in pausa il servizio per 24 ore per permettere il reset dei limiti giornalieri. Dopo averlo riavviato, ho notato questo errore:
DiscourseAi::Completions::Endpoints::OpenAi: status: 413 - body: {“error”:{“message”:“Richiesta troppo grande per il modello
openai/gpt-oss-120bnell’organizzazioneorg_01kccx1be8fffaz5sbe17livello di servizioon_demandper i token al minuto (TPM): Limite 8000, Richiesti 8102, riduci le dimensioni del messaggio e riprova. Hai bisogno di più token? Passa al livello Dev oggi su https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}
Quindi ho ridotto i token di output massimo da 7000 a 6800 nella configurazione LLM e ha ricominciato a funzionare.
Cosa sto tralasciando? Stai suggerendo che sia legato alla finestra di contesto e non abbia nulla a che fare con i token di output massimo? Sto solo cercando di capire come allineare i numeri di configurazione da Groq / limiti del modello con le configurazioni LLM di Discourse.