新しい「チャットボット」を追加し、自己ホスト型LLMにリンクさせたいです。
「ai hugging face model display name」フィールドを使用してみましたが、どこにも表示されないようです。おそらく、ペルソナに関連付けられたプロンプトで参照する必要があるのでしょうか?
また、「ai bot enable chat bots」ドロップダウンから新しいボットを「作成」しようとしましたが、作成したものはすべて、チャットボットのドロップダウンに「[en.discourse_ai.ai_bot.bot_names.XXXX]」と表示されます。XXXXは私が提供した名前です。
これを実行する方法に関するドキュメントやガイドがあれば、ぜひ教えてください。
何か提案していただける方はいらっしゃいますか、それともこれは既知の制限事項でしょうか?
@Roman がこのセクションのリファクタリングに取り組んでいます。今後数週間でさらにニュースが発表される予定です。
自己ホスト型LLMは現在使用できないが、まもなく変更される、と解釈してよいか迷っています。
現時点では不可能ですが、1〜2週間後には機能するようになることを願っています。
ありがとうございます。OpenAI がサポートされているので、機能しないことに驚きました。多くの人が OpenAI 互換のエンドポイントで独自の LLM を実行していると思います。2 週間後のアップデートを楽しみにしています ![]()
興味本位で @Isambard に質問ですが、十分に強力なローカルLLMを毎月ホストするには、どのくらいの費用がかかるか(ドル換算)の見積もりはありますか?
アイドル状態でGPUあたり月額最低5ドル程度の追加電気料金がかかりますが、実際にはLLMは他の目的で既に稼働させているため、ディスコースの増分コストはゼロです。
しかし、小規模なフォーラムや低負荷での利用であれば、LLMをサービスとして利用する方が経済的であることは確かです。ただし、Discourseのホスティングサービスのような規模になると、内部でホストする方が理にかなっている可能性があり(また、重要になる可能性のあるこの分野の知識を開発することもできます)。
A100で15k?
具体的にどのモデルをローカルで実行していますか?
私はいくつかの異なるものを実行しています。Discourse関連では、タスクに合わせてファインチューニングされたMistralベースの7Bモデルを実行します。分類タスクにはさまざまなBERTライクなモデルを検討しており、埋め込みについてはまだ決めていません。これは中古の3090 Ti(700ドルで購入)で実行されます。
A100があれば最高ですが、代わりに、わずか1,000ドルで「安価に」構築した別の4 GPUシステムで、Llama 3 70Bq4を20トークン/秒以上で実行しています。
確かに、多くの場合、プロバイダーを利用するのが合理的ですが、以下のような場合にはDIYが理にかなうかもしれません。
- 学習したい場合
- モデルに対する制御の確実性を持ちたい場合(アクセスを失ったり、非公開の埋め込みを使用するために企業に依存したりしないように)
- 大量のバッチ処理があり、社内で行う方が安価な場合
- プロバイダーから提供されるリクエストとトークンの両方に制限がある(バッチ処理のための)予約済みで信頼性の高い容量が必要な場合
3090のベンチマークを実行したところ、Llama 3 - 8B FP16を実行した際の最大持続スループットは約2600トークン/秒でした。私は電気代の高い地域に住んでいますが、285Wの電力制限で連続稼働させた場合、出力トークン100万件あたりのコストは約0.007ドルになります。または、設備費用を3年間で全額償却した場合、トークン100万件あたり約0.01ドルになります。
これは、妥当な利用率があれば、Claude Haikuと比較してかなり有利です。
興味深い発見をしました。フォーラムをホストしているウェブサーバーは、GPUなしでも、中程度の速度(バッチ処理なしで6トークン/秒)で小規模なLLMを実行するのに十分な性能があります。これはオフライン/バックグラウンドタスクに役立つでしょう。