DiscourseAI のための埋め込みをセルフホストする

Discourse · 2024 年 1 月 8 日午後 8:49

Discourse AIプラグインには、関連トピック、AI検索、AIヘルパーカテゴリおよびタグの提案など、埋め込み（embeddings）を必要とする多くの機能があります。サードパーティのAPI（OpenAIのAPIキーを設定する、Cloudflare Workers AIのAPIキーを設定するやGoogle GeminiのAPIキーを設定するなど）を使用できますが、Discourse AIは初日からそれらにロックインされないように構築されています。

HuggingFace TEIで実行する

HuggingFaceは、すぐに実行を開始できる素晴らしいコンテナイメージを提供しています。

例えば：

mkdir -p /opt/tei-cache
docker run --rm --gpus all --shm-size 1g -p 8081:80 \
  -v /opt/tei-cache:/data \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id BAAI/bge-large-en-v1.5

これにより、非常に高いパフォーマンスを発揮するオープンソースモデルであるBAAI/bge-large-en-v1.5のローカルインスタンスをすぐに利用できるようになります。

動作確認は以下でできます。

curl -X POST \
  'http://localhost:8081/embed' \
  -H 'Content-Type: application/json' \
  -d '{ "inputs": "Testing string for embeddings" }'

通常動作していれば、浮動小数点数の配列が返されるはずです。

Discourseインスタンスで利用可能にする

多くの場合、GPUによる高速化のため、専用サーバー上でこれを実行することになります。その際、リバースプロキシを実行し、TLS終端を行い、Discourseインスタンスのみが接続できるようにエンドポイントを保護することを推奨します。

DiscourseAIの設定

Discourse AIは現在、LLMの設定方法と似た、完全に設定可能な埋め込み定義システムを使用しています。自己ホスト型エンドポイントを設定するには：

管理者 → プラグイン → Discourse AI → 埋め込み (Embeddings) に移動します。
新規 (New) をクリックして、新しい埋め込み定義を作成します。
モデルに合ったプリセット (preset) を選択します（例: bge-large-en、bge-m3、または multilingual-e5-large）。または、その他のモデルの場合は手動で設定 (Configure manually) を選択します。
URL を自己ホスト型TEIサーバーを指すように設定します（例: https://your-tei-server:8081）。
テスト (Test) ボタンを使用して、保存する前に接続を確認します。
保存後、ai_embeddings_selected_model を新しい埋め込み定義に設定します。

設定が完了すると、Discourseはバックグラウンドのスケジュール済みジョブを通じて、既存のトピックの埋め込みを自動的にバックフィル（再作成）します。バックログが大きい場合は、非表示設定の ai_embeddings_backfill_batch_size（デフォルト: 250）を増やすことで、トピックの処理を高速化できます。

satonotdead · 2024 年 2 月 14 日午前 1:51

bge-m3 モデルは多言語（または英語以外の）サイトでも機能しますか？

Falco · 2024 年 2 月 14 日午前 4:14

はい、GitHubでサイレントに共有された週にそれを試しましたが、うまく機能しました。最後に確認したときにはMTEBリーダーボードに載っていなかったので、どのようにランクインするかまだ待っています。

とはいえ、多言語プラグインが出荷された大規模なホスト型Discourseインスタンスでe5を使用しており、非常にうまく機能しています。

satonotdead · 2024 年 2 月 14 日午後 2:24

埋め込み用のオープンソースカスタムエンドポイントを有効にする予定はありますか？ Huggingfaceでこれらのモデルを使用しようとしています。

Falco · 2024 年 2 月 15 日午後 10:48

申し訳ありませんが、何を伝えようとしているのか理解できません。このトピックは、Discourse AI の埋め込み用にオープンソースモデルを実行する方法に関するガイドです。

satonotdead · 2024 年 2 月 16 日午後 2:37

ああ、すみません。HuggingFace のカスタムエンドポイントからオープンソースモデルを使用しようとしていますが、それが可能かどうか、または近い将来に有効にする予定があるかどうか疑問に思っています

fokx · 2024 年 4 月 28 日午前 3:40

動作を確認するには、次のコマンドが機能します（BAAI/bge-m3 モデルを使用）。

curl -X 'POST' \
  'http://localhost:8081/embed' \
  -H 'Content-Type: application/json' \
  -d '{ "inputs": "Testing string for embeddings"}'

ちなみに、Swagger Web インターフェイス（http://localhost:8081/docs/）も使用できます。

Isambard · 2024 年 5 月 16 日午後 8:19

これも良い埋め込みサーバーです。

Isambard · 2024 年 11 月 29 日午後 1:06

容量を節約するために、量子化された埋め込みを使用することは可能ですか？ストレージサイズを大幅に削減するために、バイナリ量子化された埋め込みを使用したいと思います。いくつかのテストを行ったところ、ストレージサイズが32分の1で90%以上のパフォーマンスが得られました！

Falco · 2024 年 11 月 29 日午後 1:49

数週間前からデフォルトで、埋め込みを半精度（ストレージスペース半減）で保存し、インデックスにバイナリ量子化（32倍縮小）を使用しているため、サイトを最新の状態に更新するだけで、ディスク使用量を大幅に削減できます。

Isambard · 2024 年 11 月 29 日午後 10:27

サポートされている埋め込みモデルに以下を追加していただけますでしょうか。

Falco · 2024 年 11 月 29 日午後 10:53

埋め込みもLLMと同じように設定可能にする予定ですので、まもなくどのモデルでも互換性を持つようになります。

Isambard · 2024 年 11 月 30 日午前 12:00

ローカルネットワーク上のエンドポイント（例：192.168.x.x）で問題が発生している場合は、Discourseによってブロックされているようです（おそらくセキュリティ上の理由から）。このブロックを回避する必要があります。この問題の解決に数時間費やしました！

Isambard · 2024 年 11 月 30 日午前 8:19

@Falco それは素晴らしいでしょう。それまでの間、新しい埋め込みモデルを追加したい場合、追加する必要があるのは次のとおりですか？

 lib/embeddings/vector_representations/mxbai-embed-xsmall-v1.rb
 lib/tokenizer/mxbai-embed-xsmall-v1.rb
 tokenizers/mxbai-embed-xsmall-v1.json

そして、新しいモデルを含めるように lib/embeddings/vector_representations/base.rb を変更する必要がありますか、それとも他に何か変更する必要がありますか？

Isambard · 2024 年 11 月 30 日午後 2:11

@Falco モデルを追加しようとプルリクエストを送信しました。SW開発者ではないので、何か間違っていたら申し訳ありません。確認して、含めるのに問題ないか見ていただけますでしょうか。

残念ながら、TEIで動作させることはできませんでした。all-mpnetはTEIで動作させることができましたが、mxbaiを動作させるために行ったことには何か問題があると思います。

ところで、https://github.com/michaelfeil/infinity を埋め込みサーバーとしてサポートする可能性はありますか？

編集：HNSWインデックスがデータベースにハードコードされているようで、順序を乱さないように新しいモデルは最後に追加する必要があり、各新しいモデルは独自のインデックスを追加する必要があるため、これは乱雑になりそうです。

Falco · 2024 年 11 月 30 日午後 10:51

設定可能な埋め込みのサポートが出荷されるまで、数週間待つことを強くお勧めします。

これは、設定可能な埋め込みが出荷されると正常に機能するはずですが、好奇心から、GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models を超えるものは何をもたらしますか？

Isambard · 2024 年 12 月 3 日午後 11:55

TEIについては最近まで把握していなかったので、最近テストしていない利点については言及しませんが、最近見たものの中では以下の点が挙げられます。

ハードウェアサポート：infinityはTEIよりも優れたGPUサポートを提供します。
infinityサーバーは、単一のサーバーで複数の埋め込みモデルをホストできます（TEIで見落とした場合を除く）。

これは非常に素晴らしいです。試したことがない場合は、ぜひ見てみてください！

michaelfeil · 2024 年 12 月 31 日午後 2:45

友人がこのスレッドをDMで送ってきました。

長所/短所：

Infinityはマルチモーダル埋め込み（画像/音声の送信）をサポートしています。
AMD GPUのサポート
1つのコンテナで複数のモデルをサポート（modelパラメータでモデルを制御）。
より多くのデータ型、例えば重みのint8量子化（これはほとんどの場合無関係で、アクティベーションメモリの方が大きいです）。
Huggingfaceリポジトリで出荷される「カスタムモデリングコード」を通じて新しいモデルが頻繁にリリースされます。Infinityは必要に応じてこのPyTorchコードを読み取ります。これにより、「XYZモデルをサポートできますか」という問い合わせが継続的に発生するのを回避できます。
より多くのモデルをサポート（例：MixedBreadのdebertav2）。

短所：

TEIのコールドスタート時間は改善されました。

sam · 2025 年 1 月 15 日午後 11:23

こんにちは、Michaelさん

@roman が、以下の場所でエンベディング設定の再構築に取り組んでいます。

github.com/discourse/discourse-ai

FEATURE: configurable embeddings

main ← data_driven_embeddings

opened 02:54PM - 06 Jan 25 UTC

romanrizzi

+2124 -1001

Adds a way to configure embeddings similar to what we already have for other con…cepts like LLMs, tools, personas, etc. It hides many old settings and adds a new one called "ai_embeddings_selected_model". We include a data migration to seed the model using these old settings. It also removes the `DiscourseClassifier` service. <img width="1131" alt="Screenshot 2025-01-13 at 11 33 39 AM" src="https://github.com/user-attachments/assets/f6be2f98-1cc6-4bf9-a7d3-2aeb289f353f" /> --- <img width="545" alt="Screenshot 2025-01-13 at 11 33 45 AM" src="https://github.com/user-attachments/assets/5f541f6b-0919-42ba-8182-4f84f8c5ab8a" /> --- <img width="572" alt="Screenshot 2025-01-13 at 11 33 51 AM" src="https://github.com/user-attachments/assets/7310580c-64cd-4194-b536-0511e9ea7e81" />

それが完了すれば、infinity のサポートを追加するのは非常に簡単になるはずです。

マルチモデルエンベディングについては、PDF で RAG を実行しようとする際に、PDF を画像に処理し、各画像をエンベッドすることで、OCR や高価な LLM による画像からテキストへの変換を回避できるため、ショートカットになると思っています。

この PR が完了したら、エンベディング設定に infinity サポート（およびマルチモデルサポート）を追加できることを嬉しく思います。

お立ち寄りいただきありがとうございます

Isambard · 2025 年 1 月 23 日午前 11:45

litellm のサポートを構築することで、litellm を介してサポートされているすべてのモデルの恩恵を受けることができる近道になるのではないかと思います。他のプロジェクトでもこれを組み込んでいるようです。

トピック		返信	表示
Can´t set ai embedding model Support ai	4	121	2025 年 7 月 16 日
Discourse AI - Embeddings Site Management ai , ai-search , related-topics	24	6392	2025 年 10 月 15 日
Self-Hosting an OpenSource LLM for DiscourseAI Self-Hosting ai	7	3530	2026 年 1 月 20 日
What do I need to insert into the 'ai embeddings discourse service api endpoint' Support ai	3	159	2024 年 1 月 7 日
Discourse AI - Self-Hosted Guide Self-Hosting ai	61	13197	2025 年 4 月 30 日