Nous avons dû limiter max_tokens car notre utilisation des sorties structurées signifiait que de nombreux petits modèles pouvaient facilement tomber dans des boucles infinies lors des traductions.
Je crois que la nouvelle version de l’API OpenAI Responses applique max_tokens sans compter les jetons de réflexion, ce qui résout ce problème.