L'IA supera casualmente e in modo imprevedibile le soglie dei token LLM

Solo per tua informazione, il problema è iniziato quando il servizio di traduzione si è bloccato e ha esaurito i token:

DiscourseAi::Completions::Endpoints::OpenAi: status: 429 - body: {“error”:{“message”:“Limite di velocità raggiunto per il modello openai/gpt-oss-120b nell’organizzazione org_01kccx1be8fffaz5sbe17 livello di servizio on_demand per i token al giorno (TPD): Limite 200000, Utilizzati 193487, Richiesti 7464. Riprova tra 6m50.832s. Hai bisogno di più token? Passa al livello Dev oggi su https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}

Poi ho messo in pausa il servizio per 24 ore per permettere il reset dei limiti giornalieri. Dopo averlo riavviato, ho notato questo errore:

DiscourseAi::Completions::Endpoints::OpenAi: status: 413 - body: {“error”:{“message”:“Richiesta troppo grande per il modello openai/gpt-oss-120b nell’organizzazione org_01kccx1be8fffaz5sbe17 livello di servizio on_demand per i token al minuto (TPM): Limite 8000, Richiesti 8102, riduci le dimensioni del messaggio e riprova. Hai bisogno di più token? Passa al livello Dev oggi su https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}

Quindi ho ridotto i token di output massimo da 7000 a 6800 nella configurazione LLM e ha ricominciato a funzionare.

Cosa sto tralasciando? Stai suggerendo che sia legato alla finestra di contesto e non abbia nulla a che fare con i token di output massimo? Sto solo cercando di capire come allineare i numeri di configurazione da Groq / limiti del modello con le configurazioni LLM di Discourse.