Как настроить Discourse AI для использования только внутри организации

Я использую Discourse AI и подключил его к внешнему API LLM, а также к некоторым расширениям (которые сопряжены с дополнительными расходами).

Из-за этого я хотел бы настроить его так, чтобы он не использовал эти расширения, а полагался только на саму LLM в качестве помощника форума — для таких задач, как внутренний поиск, суммирование или другие функции, работающие исключительно в рамках форума.

Основная причина — снизить стоимость платных дополнений (например, внешнего веб-поиска), поэтому я ищу рекомендации, как настроить всё именно так.

Спасибо.

Редактирование:

Я получил ответ от провайдера, в котором говорилось, что этот запрос был оплачен как веб-поиск, поскольку ИИ ссылался на источники, такие как BBC и Reuters, и другие, что автоматически активировало режим поиска/подтверждения фактов модели.

Значит ли это, что это не связано с настройками Discourse, и нет способа отключить такое поведение со стороны провайдера?

Есть ли какое-либо обходное решение?

Провайдер предложил перейти на модель с меньшим объемом «размышлений» и избегать моделей flash или instinct, но это также означает снижение возможностей рассуждения и вычислений.

**Это сообщение было переведено с тайского языка с помощью инструмента перевода, поэтому заранее извиняюсь, если что-то окажется непонятным или неточным.

Что вы имеете в виду под расширениями? Я предполагаю, что речь о поиске в интернете?

У меня работают два самохостинговых сайта со всеми функциями Discourse AI: Gemini на Google Cloud, а для веб-исследований я использую Google Custom Search Engine API (100 бесплатных запросов в день). Я применяю Gemini 2.5 Flash Lite по максимуму, например, для суммирования и кратких выжимок, 2.5 Flash — для перевода, а различные другие модели Gemini — для более специфичных и аналитических задач (например, Gemini Flash Image).

Возможно, эта тема вас заинтересует:

Ах, понял — спасибо за уточнение! Да, я имел в виду «расширения» в смысле веб-поиска или дополнительных функций ИИ.

В моей настройке я использую API MiMo от Xiaomi, которое предоставляет мне 1000 запросов в месяц. Любое использование дополнительных расширений учитывается отдельно в зависимости от объёма использования, и, к сожалению, я не могу это отключить. Провайдер указал, что это зависит от длины и сложности промпта — например, если я или мои пользователи вводим что-то вроде «найди последние новости о…», независимо от того, есть ли это на моём форуме, модель параллельно выполнит веб-поиск. У меня действительно нет контроля над этими дополнительными расходами.

Я не вводил никаких ключей API для Google Custom Search Engine — просто оставляю это поле пустым и использую настройки по умолчанию для Forum Helper.

Интересует, есть ли какой-то умный способ решить эту проблему? Если я попытаюсь ограничить кредиты на уровне провайдера, это в итоге ограничит все модели, которые я запускаю.

Также извините, если мой английский немного трудно понять — я использую переводчик для общения :slightly_smiling_face:

Вы можете публиковать сообщения здесь на своём родном языке, локализация контента и машинный перевод включены.

Спасибо за рекомендации по использованию языка.

Краткое описание моей проблемы (простыми словами):

  • Я использую Discourse AI на собственном хостинге.
  • В качестве LLM используется MiMo API от Xiaomi, который предоставляет квоту в 1000 запросов в месяц.
  • Проблема в том, что использование некоторых расширений (например, веб-поиск) приводит к дополнительной оплате в зависимости от использования, и отключить это со стороны провайдера невозможно.

Провайдер объяснил следующее:

  • Стоимость зависит от длины и характера промпта.
  • Например, если я или пользователь вводим запрос вроде «найди последние новости о…», модель может автоматически выполнить поиск в интернете, даже если соответствующая информация уже есть на моём форуме.

Из-за этого:

  • Мне сложно контролировать расходы, так как пользователи сами вводят промпты.

Я не вводил API-ключ для Google Custom Search Engine.

Оставил это поле пустым и использовал значение по умолчанию (default) для Forum Helper.

Если я попробую ограничить кредиты со стороны провайдера:

  • Это ограничит все используемые модели.
  • Нельзя ограничить конкретную модель или конкретную функцию.

Вот пример лога, который я смог проверить:

Generation details
Model: MiMo-V2-Flash
Model ID: xiaomi/mimo-v2-flash
Provider: Xiaomi

First token latency: 12.77 seconds
Throughput: 1.5 tokens/second
Finish reason: stop
Data policy: No data training | Policy

Tokens:
- Prompt: 38065
- Completion: 20

Web search:
- Results: 5

Costs:
- Subtotal: 0
- Web search cost: 0.02
- Final cost: 0.02

Creator: hidden 
Generation ID: hidden 

Если вы имеете в виду использование локального LLM, у меня пока нет планов увеличивать расходы на сервер. Это требует значительных вычислительных ресурсов, особенно при одновременной работе более 20 пользователей, поэтому этот вариант не будет реализован. Я предпочитаю сосредоточиться на использовании внешних API, таких как groq или openrouter, которые более экономичны, и стремлюсь контролировать расходы в этой области.

Спасибо за поддержку.

Я уже нашёл ответ. По моим тестам и наблюдениям, веб-поиск запускался для каждой используемой мной модели (или, по крайней мере, для каждой протестированной), даже после переключения между моделями. Похоже, это проблема на стороне провайдера.

Проблема в том, что веб-поиск становится нежелательной скрытой стоимостью, которую я не могу должным образом контролировать или полностью отключить, даже когда он не нужен.

Я уже очистил свой аккаунт, отменил подписку у этого провайдера и теперь ищу другого.

Ещё раз спасибо.