我们不得不限制 max_tokens,因为我们使用结构化输出来进行翻译时,许多小型模型很容易陷入无限循环。
我相信新版本的 OpenAI Responses API 在计算思考令牌时不计入 max_tokens,这解决了这个问题。