Просто к сведению: проблема началась с того, что сервис перевода завис и исчерпал лимит токенов:
DiscourseAi::Completions::Endpoints::OpenAi: status: 429 - body: {“error”:{“message”:“Достигнут лимит скорости для модели
openai/gpt-oss-120bв организацииorg_01kccx1be8fffaz5sbe17на уровне обслуживанияon_demandпо токенам в день (TPD): Лимит 200000, Использовано 193487, Запрошено 7464. Пожалуйста, повторите попытку через 6 м 50.832 с. Нужно больше токенов? Перейдите на тариф Dev Tier сегодня по ссылке https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}
Затем я приостановил работу сервиса на 24 часа, чтобы сбросить суточные лимиты. После перезапуска я обнаружил эту ошибку:
DiscourseAi::Completions::Endpoints::OpenAi: status: 413 - body: {“error”:{“message”:“Запрос слишком велик для модели
openai/gpt-oss-120bв организацииorg_01kccx1be8fffaz5sbe17на уровне обслуживанияon_demandпо токенам в минуту (TPM): Лимит 8000, Запрошено 8102, пожалуйста, уменьшите размер сообщения и повторите попытку. Нужно больше токенов? Перейдите на тариф Dev Tier сегодня по ссылке https://console.groq.com/settings/billing",“type”:“tokens”,“code”:"rate_limit_exceeded”}}
После этого я уменьшил максимальное количество выходных токенов с 7000 до 6800 в конфигурации LLM, и всё снова заработало.
Что я упускаю? Вы предполагаете, что это связано с окном контекста и не имеет ничего общего с максимальным количеством выходных токенов? Просто пытаюсь понять, как сопоставить числовые значения конфигурации из Groq / лимитов модели с настройками LLM в Discourse.