Нам пришлось ограничить параметр max_tokens, так как использование структурированных выводов приводило к тому, что многие небольшие модели легко уходили в бесконечные циклы во время переводов.
Я полагаю, что в новой версии API OpenAI Responses параметр max_tokens применяется без учёта токенов размышления, что решает эту проблему.