L'IA dépasse aléatoirement et de manière imprévisible les seuils de tokens des LLM

Juste pour info, le problème a commencé lorsque le service de traduction s’est figé et a épuisé les jetons :

DiscourseAi::Completions::Endpoints::OpenAi: status: 429 - body: {“error”:{“message”:“Limite de débit atteinte pour le modèle openai/gpt-oss-120b dans l’organisation org_01kccx1be8fffaz5sbe17 au niveau de service on_demand en termes de jetons par jour (TPD) : Limite 200000, Utilisé 193487, Demandé 7464. Veuillez réessayer dans 6m50.832s. Besoin de plus de jetons ? Passez au niveau Dev dès aujourd’hui sur https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}

J’ai ensuite mis le service en pause pendant 24 heures pour permettre la réinitialisation des limites quotidiennes. Après le redémarrage, j’ai constaté cette erreur :

DiscourseAi::Completions::Endpoints::OpenAi: status: 413 - body: {“error”:{“message”:“Requête trop volumineuse pour le modèle openai/gpt-oss-120b dans l’organisation org_01kccx1be8fffaz5sbe17 au niveau de service on_demand en termes de jetons par minute (TPM) : Limite 8000, Demandé 8102, veuillez réduire la taille de votre message et réessayer. Besoin de plus de jetons ? Passez au niveau Dev dès aujourd’hui sur https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}

J’ai ensuite réduit le nombre maximal de jetons de sortie de 7000 à 6800 dans la configuration du LLM et tout a recommencé à fonctionner.

Qu’est-ce que je rate ? Suggérez-vous que cela soit lié à la fenêtre de contexte et sans rapport avec les jetons de sortie maximaux ? J’essaie simplement de comprendre comment faire correspondre les chiffres de configuration de Groq / les limites des modèles avec les configurations LLM de Discourse.