Self-Hosting Embeddings für DiscourseAI

Discourse · 8. Januar 2024 um 20:49

Das Plugin Discourse AI verfügt über viele Funktionen, die Einbettungen (Embeddings) benötigen, wie z. B. Ähnliche Themen, KI-Suche, KI-Assistenten-Kategorie- und Tag-Vorschläge usw. Obwohl Sie eine Drittanbieter-API verwenden können, wie z. B. API-Schlüssel für OpenAI konfigurieren, API-Schlüssel für Cloudflare Workers AI konfigurieren oder API-Schlüssel für Google Gemini konfigurieren, haben wir Discourse AI von Anfang an so entwickelt, dass es nicht davon abhängig ist.

Ausführung mit HuggingFace TEI

HuggingFace bietet ein hervorragendes Container-Image, mit dem Sie schnell starten können.

Zum Beispiel:

mkdir -p /opt/tei-cache
docker run --rm --gpus all --shm-size 1g -p 8081:80 \
  -v /opt/tei-cache:/data \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id BAAI/bge-large-en-v1.5

Dies sollte Sie mit einer lokalen Instanz von BAAI/bge-large-en-v1.5, einem sehr gut funktionierenden Open-Source-Modell, zum Laufen bringen.

Sie können überprüfen, ob es funktioniert mit

curl -X POST \
  'http://localhost:8081/embed' \
  -H 'Content-Type: application/json' \
  -d '{ "inputs": "Testing string for embeddings" }'

was unter normalen Betriebsbedingungen ein Array von Gleitkommazahlen zurückgeben sollte.

Verfügbarmachung für Ihre Discourse-Instanz

Meistens werden Sie dies aufgrund der GPU-Beschleunigung auf einem dedizierten Server ausführen. Wenn Sie dies tun, empfehle ich die Ausführung eines Reverse-Proxys, der TLS-Terminierung durchführt und den Endpunkt absichert, sodass er nur von Ihrer Discourse-Instanz verbunden werden kann.

Konfigurieren von DiscourseAI

Discourse AI verwendet nun ein vollständig konfigurierbares Embedding-Definitionssystem, ähnlich der Konfiguration von LLMs. Um Ihren selbst gehosteten Endpunkt einzurichten:

Navigieren Sie zu Admin → Plugins → Discourse AI → Embeddings.
Klicken Sie auf Neu, um eine neue Embedding-Definition zu erstellen.
Wählen Sie ein Preset aus, das zu Ihrem Modell passt (z. B. bge-large-en, bge-m3 oder multilingual-e5-large), oder wählen Sie Manuell konfigurieren für jedes andere Modell.
Setzen Sie die URL auf Ihren selbst gehosteten TEI-Server (z. B. https://ihr-tei-server:8081).
Verwenden Sie die Schaltfläche Test, um die Konnektivität zu überprüfen, bevor Sie speichern.
Setzen Sie nach dem Speichern ai_embeddings_selected_model auf Ihre neue Embedding-Definition.

Nach der Konfiguration füllt Discourse automatisch Einbettungen für vorhandene Themen über einen geplanten Hintergrundjob auf. Wenn Sie einen großen Rückstand haben, können Sie die versteckte Einstellung ai_embeddings_backfill_batch_size (Standard: 250) erhöhen, um Themen schneller zu verarbeiten.

satonotdead · 14. Februar 2024 um 01:51

Sollte das Modell bge-m3 für mehrsprachige (oder nicht-englische) Websites funktionieren?

Falco · 14. Februar 2024 um 04:14

Ja, ich habe damit in der Woche gespielt, als es stillschweigend auf GitHub geteilt wurde, und es funktioniert gut. Ich warte immer noch darauf, wie es in den MTEB-Bestenlisten landet, da es dort, als ich das letzte Mal nachgesehen habe, nicht vorhanden war.

Das gesagt, wir haben große gehostete Discourse-Instanzen, die das mehrsprachige Plugin verwenden, das mitgeliefert wird, e5, und es leistet sehr gute Arbeit.

satonotdead · 14. Februar 2024 um 14:24

Danke, hatten Sie vor, Open-Source-Endpunkte für Embeds zu aktivieren? Ich versuche, diese Modelle auf Huggingface zu verwenden.

Falco · 15. Februar 2024 um 22:48

Entschuldigung, ich verstehe nicht, was Sie hier vermitteln wollen. Dieses Thema ist eine Anleitung zur Ausführung von Open-Source-Modellen für Discourse AI-Einbettungen.

satonotdead · 16. Februar 2024 um 14:37

Oh, entschuldigen Sie das. Ich versuche, ein Open-Source-Modell von HuggingFace über einen benutzerdefinierten Endpunkt zu verwenden, und ich frage mich, ob das möglich ist oder ob es in naher Zukunft geplant ist, dies zu ermöglichen

fokx · 28. April 2024 um 03:40

Um zu überprüfen, ob es funktioniert, funktioniert der folgende Befehl für mich (mit dem Modell BAAI/bge-m3):

curl -X 'POST' \
  'http://localhost:8081/embed' \
  -H 'Content-Type: application/json' \
  -d '{ "inputs": "Testing string for embeddings"}'

Übrigens können Sie auch die Swagger-Weboberfläche unter http://localhost:8081/docs/ verwenden.

Isambard · 16. Mai 2024 um 20:19

Dies ist auch ein schöner Embeddings-Server:

Isambard · 29. November 2024 um 13:06

Um Speicherplatz zu sparen, ist es möglich, quantisierte Embeddings zu verwenden? Ich möchte binär quantisierte Embeddings verwenden, um die Speichergröße wirklich zu reduzieren. Nach einigen Tests erziele ich eine Leistung von >90 % bei 32-facher geringerer Speicherung!

Falco · 29. November 2024 um 13:49

Wir speichern Embeddings standardmäßig mit halber Genauigkeit (halber Speicherplatz) und verwenden binäre Quantisierung für Indizes (32x kleiner) seit einigen Wochen. Ein einfaches Update Ihrer Website auf die neueste Version sollte daher eine deutliche Reduzierung des Festplattenspeicherbedarfs bewirken.

Isambard · 29. November 2024 um 22:27

Könnten Sie bitte auch Folgendes hinzufügen:

zu den unterstützten Einbettungsmodellen?

Falco · 29. November 2024 um 22:53

Wir planen, Embeddings auf die gleiche Weise konfigurierbar zu machen wie LLMs, sodass bald jedes Modell kompatibel sein wird.

Isambard · 30. November 2024 um 00:00

Wenn jemand anderes Probleme mit Endpunkten im lokalen Netzwerk hat, z. B. 192.168.x.x – es scheint, dass diese von Discourse blockiert werden (vermutlich aus Sicherheitsgründen) und die Blockierung umgangen werden muss. Ich habe Stunden damit verbracht, das herauszufinden!

Isambard · 30. November 2024 um 08:19

@Falco das wäre großartig. In der Zwischenzeit, wenn ich versuchen wollte, ein neues Einbettungsmodell hinzuzufügen, muss ich nur Folgendes hinzufügen:

 lib/embeddings/vector_representations/mxbai-embed-xsmall-v1.rb
 lib/tokenizer/mxbai-embed-xsmall-v1.rb
 tokenizers/mxbai-embed-xsmall-v1.json

und lib/embeddings/vector_representations/base.rb ändern, um das neue Modell einzuschließen, oder gibt es noch etwas anderes, das ich ändern muss?

Isambard · 30. November 2024 um 14:11

@Falco Ich habe mich daran versucht, das Modell hinzuzufügen und eine Pull-Anfrage gesendet. Entschuldigung, falls ich etwas falsch gemacht habe, da ich kein wirklicher SW-Entwickler bin. Ich hoffte, Sie könnten es vielleicht überprüfen und sehen, ob es für die Aufnahme in Frage kommt.

Leider konnte ich es nicht mit TEI zum Laufen bringen. Ich konnte das all-mpnet mit TEI zum Laufen bringen, aber ich glaube, etwas ist falsch mit dem, was ich getan habe, um mxbai zum Laufen zu bringen.

Übrigens, gibt es eine Chance, https://github.com/michaelfeil/infinity als Embedding-Server zu unterstützen?

EDIT: Ich sehe, dass das unübersichtlich wird, da die HNSW-Indizes in der Datenbank fest kodiert zu sein scheinen, sodass neue Modelle am Ende angehängt werden müssen, um die Reihenfolge nicht zu stören, und jedes neue Modell muss seinen eigenen Index hinzufügen.

Falco · 30. November 2024 um 22:51

Ich empfehle wirklich, ein paar Wochen zu warten, bis wir die Unterstützung für konfigurierbare Embeddings ausliefern.

Das sollte funktionieren, wenn wir konfigurierbare Embeddings ausliefern, aber aus Neugier, was würde das gegenüber GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models bringen?

Isambard · 3. Dezember 2024 um 23:55

Ich habe mich nicht mit TEI auf dem Laufenden gehalten und werde daher keine Vorteile erwähnen, die ich nicht kürzlich getestet habe, aber von den Dingen, die ich kürzlich gesehen habe:\n\n* Hardwareunterstützung: infinity hat eine bessere GPU-Unterstützung als TEI\n* infinity server kann mehrere Embedding-Modelle auf einem einzigen Server hosten (es sei denn, ich habe dies in TEI übersehen)\n\nEs ist sehr gut. Wenn Sie es noch nicht ausprobiert haben, sollten Sie es sich ansehen!

michaelfeil · 31. Dezember 2024 um 14:45

Ein Freund hat mir gerade diesen Thread per DM geschickt.

Einige Pro/Contra:

Infinity unterstützt Multi-Modal-Embeddings (aka Senden von Bildern/Audio)
AMD GPU-Unterstützung
Mehrere Modelle im selben Container unterstützt (Steuerung des Modells über den model-Parameter).
Mehr Datentypen, z. B. int8-Quantisierung der Gewichte (meist ist dies irrelevant, der Aktivierungsspeicher ist größer)
Neue Modelle erscheinen oft über “Custom Modeling Code”, der im Huggingface-Repository ausgeliefert wird. Infinity liest diesen PyTorch-Code bei Bedarf. Dies hilft Ihnen, wiederholte Anfragen nach “Können Sie XYZ-Modelle unterstützen” zu vermeiden.
Mehr unterstützte Modelle (z. B. debertav2 für Mixedbread)

Contra:

Die Startzeit von TEI ist besser

sam · 15. Januar 2025 um 23:23

Hallo Michael

@roman war beschäftigt damit, unsere Embedding-Konfiguration umzustrukturieren unter:

github.com/discourse/discourse-ai

FEATURE: configurable embeddings

main ← data_driven_embeddings

opened 02:54PM - 06 Jan 25 UTC

romanrizzi

+2124 -1001

Adds a way to configure embeddings similar to what we already have for other con…cepts like LLMs, tools, personas, etc. It hides many old settings and adds a new one called "ai_embeddings_selected_model". We include a data migration to seed the model using these old settings. It also removes the `DiscourseClassifier` service. <img width="1131" alt="Screenshot 2025-01-13 at 11 33 39 AM" src="https://github.com/user-attachments/assets/f6be2f98-1cc6-4bf9-a7d3-2aeb289f353f" /> --- <img width="545" alt="Screenshot 2025-01-13 at 11 33 45 AM" src="https://github.com/user-attachments/assets/5f541f6b-0919-42ba-8182-4f84f8c5ab8a" /> --- <img width="572" alt="Screenshot 2025-01-13 at 11 33 51 AM" src="https://github.com/user-attachments/assets/7310580c-64cd-4194-b536-0511e9ea7e81" />

Wir sollten sehr, sehr bald fertig sein, und sobald das erledigt ist, wird die Unterstützung für Infinity trivial sein.

Ich denke immer noch viel über Multi-Model-Embeddings nach, es gibt Ihnen eine Abkürzung, wenn Sie versuchen, RAG auf PDFs durchzuführen, da Sie es einfach in Bilder verarbeiten und jedes Bild einbetten, wodurch die Notwendigkeit von OCR oder teurem Bild-zu-Text, das von LLM angetrieben wird, vermieden wird.

Sobald wir diesen PR erledigt haben, werden wir mehr als glücklich sein, Infinity-Unterstützung (und Multi-Model-Unterstützung) in die Embedding-Konfiguration aufzunehmen.

Danke fürs Vorbeischauen

Isambard · 23. Januar 2025 um 11:45

Ich frage mich, ob die Implementierung von LiteLLM-Unterstützung eine Abkürzung darstellen könnte, da Sie dann von allen über LiteLLM unterstützten Modellen profitieren würden. Andere Projekte scheinen dies einzubetten.

Thema		Antworten	Aufrufe
Can´t set ai embedding model Support ai	4	121	16. Juli 2025
Discourse AI - Embeddings Site Management ai , ai-search , related-topics	24	6392	15. Oktober 2025
Self-Hosting an OpenSource LLM for DiscourseAI Self-Hosting ai	7	3530	20. Januar 2026
What do I need to insert into the 'ai embeddings discourse service api endpoint' Support ai	3	159	7. Januar 2024
Discourse AI - Self-Hosted Guide Self-Hosting ai	61	13197	30. April 2025

Self-Hosting Embeddings für DiscourseAI

Ausführung mit HuggingFace TEI

Verfügbarmachung für Ihre Discourse-Instanz

Konfigurieren von DiscourseAI

Verwandte Themen