Thefacto
(Thefacto)
1
Discourse AI を使用しており、外部の LLM API といくつかの拡張機能(追加費用が発生するもの)を接続しています。
そのため、それらの拡張機能を使用せず、LLM 自体のみをフォーラムヘルパーとして利用するように設定したいと考えています。フォーラム内で純粋に機能する内部検索、要約、その他の機能などに利用したいです。
主な理由は、有料アドオン(例:外部ウェブ検索)のコストを削減したいからです。そのため、このように設定する方法についてのガイダンスを探しています。
ありがとうございます。
編集:
プロバイダーから、このリクエストが BBC や Reuters などの情報源を AI が引用したためにウェブ検索として課金されたという返信がありました。これは、モデルの証拠/検索モードが自動的にトリガーされたためです。
ということは、これは Discourse の設定とは関係なく、プロバイダー側でこの動作を無効にする方法はないということでしょうか?
これに対する回避策はありますか?
プロバイダーは、「思考」が少ないモデルに切り替えることや、Flash モデルや Instinct モデルを避けることを提案しましたが、それは推論能力と計算能力の低下も意味します。
このメッセージは翻訳ツールを使用してタイ語から翻訳されたため、不明瞭な点や不正確な点がある場合は、あらかじめお詫び申し上げます。
Lilly
2
「拡張機能」とはどういう意味ですか?ウェブ検索用でしょうか?
私は、Google Cloud の Gemini を使用して、すべての Discourse AI 機能を実行するセルフホスト型サイトを 2 つ運用しており、ウェブリサーチャーには Google Custom Search Engine API (1 日あたり 100 クエリ無料) を使用しています。要約や要点抽出など、可能な限り多くのタスクに Gemini 2.5 flash lite を使用し、翻訳には 2.5 flash を使用し、より具体的で思考を要するタスクにはさまざまな Gemini モデル (例えば、Gemini flash image など) を使用しています。
このトピックも興味深いかもしれません。
「いいね!」 2
Thefacto
(Thefacto)
3
ああ、なるほど、明確にしてくれてありがとうございます!ええ、私は「ウェブ検索」や追加のAI機能という意味での「拡張機能」を考えていました。
私の設定では、XiaomiのMiMo APIを使用しており、月あたり1000リクエストが提供されます。追加の拡張機能の使用は使用量に応じて追加料金が発生し、残念ながらそれを無効にすることができません。プロバイダーによると、それはプロンプトの長さと複雑さによって異なるとのことです。例えば、私やユーザーが「〜に関する最新ニュースを検索して」のようなものを入力すると、それが私のフォーラムに存在するかどうかにかかわらず、モデルは並行してウェブ検索を行います。その追加費用を制御する方法がありません。
Googleカスタム検索エンジンのAPIキーは入力していません。空のままにして、フォーラムヘルパーのデフォルト設定を使用しています。
これを何とか賢く処理する方法はないかと思っていました。プロバイダーレベルでクレジットを制限しようとすると、実行しているすべてのモデルが制限されてしまいます。
また、翻訳機を使っているので、私の英語が分かりにくいかもしれませんが、お詫び申し上げます 
Lilly
4
ここでは、あなたの母国語で投稿できます。コンテンツのローカライゼーションとAI翻訳が有効になっています。
「いいね!」 2
Thefacto
(Thefacto)
5
言語の使用に関するアドバイスありがとうございます。
現在直面している問題を(分かりやすく)要約します。
- セルフホスト型のウェブサイトでDiscourse AIを使用しています。
- 使用しているLLMはXiaomiのMiMo APIで、月間1000リクエストのクォータが提供されています。
- 問題は、一部の拡張機能(例:ウェブ検索)の使用が利用状況に応じて追加料金を発生させ、プロバイダー側で無効にできないことです。
プロバイダーの説明によると、
- 料金はプロンプトの長さと性質によって異なります。
- 例えば、私やユーザーが「〜に関する最新ニュースを検索」と入力した場合、それが私のフォーラム内に情報があるかどうかにかかわらず、モデルが自動的にウェブからも情報を検索する可能性があります。
これにより、
- ユーザーがプロンプトを直接入力するため、コスト管理が難しくなります。
私はGoogleカスタム検索エンジンAPIキーを設定していません。
このフィールドを空欄のままにし、Forum Helperのデフォルト値を使用しています。
プロバイダー側でクレジットを制限しようとすると、
- 使用しているすべてのモデルが制限されてしまいます。
- 特定のモデルや機能のみを制限することはできません。
以下は確認できたログの例です。
Generation details
Model: MiMo-V2-Flash
Model ID: xiaomi/mimo-v2-flash
Provider: Xiaomi
First token latency: 12.77 seconds
Throughput: 1.5 tokens/second
Finish reason: stop
Data policy: No data training | Policy
Tokens:
- Prompt: 38065
- Completion: 20
Web search:
- Results: 5
Costs:
- Subtotal: 0
- Web search cost: 0.02
- Final cost: 0.02
Creator: hidden
Generation ID: hidden
Thefacto
(Thefacto)
6
ローカルLLMの使用についておっしゃっているのであれば、現時点では費用を増やす予定はありません。サーバー上では、20人以上のユーザーが同時に使用する場合、非常に多くの処理能力が必要になるため、このプランは導入されていません。私は、groqやopenrouterのような外部APIの使用に重点を置きたいと考えています。これらは費用対効果が高く、この部分のコストを管理するように努めています。
Thefacto
(Thefacto)
7
サポートありがとうございます。
すでに自分で答えを見つけました。私のテストと観察から、使用したすべてのモデル(少なくとも試したすべてのモデル)でウェブ検索がトリガーされていたようです。これはプロバイダー側の問題のようです。
問題は、ウェブ検索が、必要ない場合でも適切に制御したり完全に無効にしたりできない、望ましくない隠れたコストになることです。
すでにアカウントを消去し、このプロバイダーとのサービスを解約し、現在別のプロバイダーを探しています。
改めて感謝します。