我的经验恰恰相反。我有一套希望被遵循的指令,这些指令需要理解上下文,而非思考模型要么会忽略这些指令,要么会在错误的情况下应用它们。我刚刚通过这种方式翻译了一个完整的应用程序——超过 3000 个字符串,使用推理模型能获得好得多的结果。
根据我的发现,我将思考力降低到 low,并获得了所有翻译。但我认为像这样限制输出令牌是适得其反的,因为思考模型并没有被禁止用于翻译,而用户却不知道为什么会失败。
解决方案可能很简单,比如如果 LLM 启用了思考功能,就将其乘以 2。或者将乘数作为一个配置选项暴露出来。