Tuvimos que limitar max_tokens ya que nuestro uso de salidas estructuradas significaba que muchos modelos pequeños podían caer fácilmente en bucles infinitos durante las traducciones.
Creo que la versión más reciente de la API de Respuestas de OpenAI aplica max_tokens sin contar los tokens de pensamiento, lo que resuelve este problema.