Tivemos que limitar max_tokens, pois nosso uso de saídas estruturadas significava que muitos modelos menores poderiam facilmente entrar em loops infinitos durante as traduções.
Acredito que a versão mais recente da API de Respostas da OpenAI aplica max_tokens sem contar os tokens de pensamento, o que resolve esse problema.