AI 随机且不可预测地超出 LLM 令牌阈值

仅供参考,问题最初是从翻译服务卡住并耗尽 token 开始的:

DiscourseAi::Completions::Endpoints::OpenAi: 状态码:429 - 响应体:{“error”:{“message”:“模型 openai/gpt-oss-120b 在组织 org_01kccx1be8fffaz5sbe17 的服务层级 on_demand 上已达到每日 token 限制(TPD):限制 200000,已用 193487,请求 7464。请在 6 分 50.832 秒后重试。需要更多 token?请立即升级到 Dev Tier:https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}

随后我将该服务暂停了 24 小时,等待每日限制重置。重启服务后,我注意到以下错误:

DiscourseAi::Completions::Endpoints::OpenAi: 状态码:413 - 响应体:{“error”:{“message”:“请求过大,模型 openai/gpt-oss-120b 在组织 org_01kccx1be8fffaz5sbe17 的服务层级 on_demand 上已达到每分钟 token 限制(TPM):限制 8000,请求 8102,请减小消息大小后重试。需要更多 token?请立即升级到 Dev Tier:https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}

之后,我在 LLM 配置中将最大输出 token 数从 7000 降至 6800,服务便恢复正常。

我是不是遗漏了什么?您是否认为这与上下文窗口有关,而与最大输出 token 数无关?我只是想弄清楚如何将 Groq/模型限制中的配置数值与 Discourse LLM 配置相匹配。