Juste pour info, le problème a commencé lorsque le service de traduction s’est figé et a épuisé les jetons :
DiscourseAi::Completions::Endpoints::OpenAi: status: 429 - body: {“error”:{“message”:“Limite de débit atteinte pour le modèle
openai/gpt-oss-120bdans l’organisationorg_01kccx1be8fffaz5sbe17au niveau de serviceon_demanden termes de jetons par jour (TPD) : Limite 200000, Utilisé 193487, Demandé 7464. Veuillez réessayer dans 6m50.832s. Besoin de plus de jetons ? Passez au niveau Dev dès aujourd’hui sur https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}
J’ai ensuite mis le service en pause pendant 24 heures pour permettre la réinitialisation des limites quotidiennes. Après le redémarrage, j’ai constaté cette erreur :
DiscourseAi::Completions::Endpoints::OpenAi: status: 413 - body: {“error”:{“message”:“Requête trop volumineuse pour le modèle
openai/gpt-oss-120bdans l’organisationorg_01kccx1be8fffaz5sbe17au niveau de serviceon_demanden termes de jetons par minute (TPM) : Limite 8000, Demandé 8102, veuillez réduire la taille de votre message et réessayer. Besoin de plus de jetons ? Passez au niveau Dev dès aujourd’hui sur https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}
J’ai ensuite réduit le nombre maximal de jetons de sortie de 7000 à 6800 dans la configuration du LLM et tout a recommencé à fonctionner.
Qu’est-ce que je rate ? Suggérez-vous que cela soit lié à la fenêtre de contexte et sans rapport avec les jetons de sortie maximaux ? J’essaie simplement de comprendre comment faire correspondre les chiffres de configuration de Groq / les limites des modèles avec les configurations LLM de Discourse.