Hébergement local des Embeddings pour DiscourseAI

Discourse · Janvier 8, 2024, 8:49

Le plugin Discourse AI possède de nombreuses fonctionnalités qui nécessitent des intégrations (embeddings) pour fonctionner, telles que Sujets similaires, Recherche IA, Aide IA, Suggestion de catégories et de tags, etc. Bien que vous puissiez utiliser une API tierce, comme Configurer les clés API pour OpenAI, Configurer les clés API pour Cloudflare Workers AI ou Configurer les clés API pour Google Gemini, nous avons conçu Discourse AI dès le premier jour pour ne pas être lié à ceux-ci.

Exécuter avec HuggingFace TEI

HuggingFace fournit une image de conteneur impressionnante qui vous permet de démarrer rapidement.

Par exemple :

mkdir -p /opt/tei-cache
docker run --rm --gpus all --shm-size 1g -p 8081:80 \
  -v /opt/tei-cache:/data \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id BAAI/bge-large-en-v1.5

Ceci devrait vous permettre de démarrer avec une instance locale de BAAI/bge-large-en-v1.5, un modèle open-source très performant.

Vous pouvez vérifier si cela fonctionne avec

curl -X POST \
  'http://localhost:8081/embed' \
  -H 'Content-Type: application/json' \
  -d '{ "inputs": "Testing string for embeddings" }'

Ce qui devrait retourner un tableau de flottants en fonctionnement normal.

Le rendre disponible pour votre instance Discourse

La plupart du temps, vous l’exécuterez sur un serveur dédié en raison de l’accélération par GPU. Lorsque vous le faites, je vous recommande d’exécuter un proxy inverse, d’effectuer la terminaison TLS et de sécuriser le point de terminaison afin qu’il ne puisse être connecté que par votre instance Discourse.

Configuration de DiscourseAI

Discourse AI utilise désormais un système de définition d’intégration entièrement configurable, similaire à la façon dont les LLM sont configurés. Pour configurer votre point de terminaison auto-hébergé :

Naviguez vers Admin → Plugins → Discourse AI → Embeddings.
Cliquez sur New pour créer une nouvelle définition d’intégration.
Sélectionnez un preset qui correspond à votre modèle (par exemple, bge-large-en, bge-m3, ou multilingual-e5-large), ou choisissez Configure manually pour tout autre modèle.
Définissez l’URL pour pointer vers votre serveur TEI auto-hébergé (par exemple, https://your-tei-server:8081).
Utilisez le bouton Test pour vérifier la connectivité avant d’enregistrer.
Après l’enregistrement, définissez ai_embeddings_selected_model sur votre nouvelle définition d’intégration.

Une fois configuré, Discourse remplira automatiquement les intégrations pour les sujets existants via une tâche de fond planifiée. Si vous avez un grand nombre de sujets en attente, vous pouvez augmenter le paramètre masqué ai_embeddings_backfill_batch_size (par défaut : 250) pour traiter les sujets plus rapidement.

satonotdead · Février 14, 2024, 1:51

Le modèle bge-m3 devrait-il fonctionner pour les sites multilingues (ou non anglais) ?

Falco · Février 14, 2024, 4:14

Oui, j’ai joué avec la semaine où il a été partagé silencieusement sur GitHub et cela fonctionne bien. J’attends toujours de voir comment il atterrit dans les classements MTEB, car il n’y était pas la dernière fois que j’ai regardé.

Cela dit, nous avons de grandes instances Discourse hébergées qui utilisent le plugin multilingue qu’il expédie, e5, et il fonctionne très bien.

satonotdead · Février 14, 2024, 2:24

Merci, avez-vous prévu d’activer des points d’accès personnalisés open-source pour les intégrations ? J’essaie d’utiliser ces modèles sur Huggingface.

Falco · Février 15, 2024, 10:48

Désolé, je ne comprends pas ce que vous essayez de communiquer ici. Ce sujet est un guide sur la façon d’exécuter des modèles open-source pour les intégrations Discourse AI.

satonotdead · Février 16, 2024, 2:37

Oh, désolé pour ça. J’essaie d’utiliser un modèle open-source à partir d’un point de terminaison personnalisé HuggingFace et je me demande si c’est possible ou si c’est prévu pour être activé dans un avenir proche

fokx · Avril 28, 2024, 3:40

Pour vérifier si cela fonctionne, la commande suivante fonctionne pour moi (avec le modèle BAAI/bge-m3) :

curl -X 'POST' \
  'http://localhost:8081/embed' \
  -H 'Content-Type: application/json' \
  -d '{ "inputs": "Testing string for embeddings"}'

Au fait, vous pouvez également utiliser l’interface Web Swagger à l’adresse http://localhost:8081/docs/.

Isambard · Mai 16, 2024, 8:19

Ceci est également un bon serveur d’intégration :

Isambard · Novembre 29, 2024, 1:06

Pour économiser de l’espace, est-il possible d’utiliser des embeddings quantifiés ? J’aimerais utiliser des embeddings quantifiés binaires pour réduire considérablement la taille de stockage. Après quelques tests, j’obtiens plus de 90 % des performances avec 32 fois moins de stockage !

Falco · Novembre 29, 2024, 1:49

Nous stockons les embeddings en demi-précision (demi-espace de stockage) et utilisons la quantification binaire pour les index (32 fois plus petits) par défaut depuis quelques semaines, donc une simple mise à jour de votre site vers la dernière version devrait vous permettre de réduire considérablement l’utilisation du disque.

Isambard · Novembre 29, 2024, 10:27

Pourriez-vous également ajouter :

aux modèles d’intégration pris en charge ?

Falco · Novembre 29, 2024, 10:53

Nous prévoyons de rendre les embeddings configurables de la même manière que nous l’avons fait avec les LLM, de sorte que tout modèle sera bientôt compatible.

Isambard · Novembre 30, 2024, 12:00

Si d’autres personnes rencontrent des problèmes avec les points de terminaison sur le réseau local, par exemple 192.168.x.x, il semble qu’ils soient bloqués par Discourse (vraisemblablement pour des raisons de sécurité) et que le blocage doive être contourné. J’ai perdu quelques heures à comprendre cela !

Isambard · Novembre 30, 2024, 8:19

@Falco, ce serait formidable. Entre-temps, si je voulais essayer d’ajouter un nouveau modèle d’intégration, dois-je simplement ajouter :

 lib/embeddings/vector_representations/mxbai-embed-xsmall-v1.rb
 lib/tokenizer/mxbai-embed-xsmall-v1.rb
 tokenizers/mxbai-embed-xsmall-v1.json

et modifier lib/embeddings/vector_representations/base.rb pour inclure le nouveau modèle, ou y a-t-il autre chose que je doive changer ?

Isambard · Novembre 30, 2024, 2:11

@Falco J’ai essayé d’ajouter le modèle et j’ai envoyé une pull request. Mes excuses si j’ai fait quelque chose de mal, car je ne suis pas vraiment un développeur logiciel. J’espérais que vous pourriez peut-être y jeter un œil et voir si c’est acceptable pour inclusion.

Malheureusement, je n’ai pas réussi à le faire fonctionner avec TEI. J’ai pu faire fonctionner all-mpnet avec TEI, mais je pense qu’il y a quelque chose qui ne va pas dans ce que j’ai fait pour faire fonctionner mxbai.

Au fait, y a-t-il une chance de supporter https://github.com/michaelfeil/infinity comme serveur d’intégration ?

EDIT : Je vois que cela va être compliqué car les index HNSW dans la base de données semblent être codés en dur, donc de nouveaux modèles doivent être ajoutés à la fin pour éviter de perturber l’ordre et chaque nouveau modèle doit ajouter son propre index.

Falco · Novembre 30, 2024, 10:51

Je recommande vraiment d’attendre quelques semaines jusqu’à ce que nous lancions la prise en charge des embeddings configurables.

Cela devrait fonctionner correctement lorsque nous lancerons les embeddings configurables, mais par curiosité, qu’apporterait cela par rapport à GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models ?

Isambard · Décembre 3, 2024, 11:55

Je n’ai pas suivi TEI, donc je ne mentionnerai pas les avantages que je n’ai pas testés récemment, mais parmi les choses que j’ai vues récemment :

Prise en charge matérielle : infinity a une meilleure prise en charge GPU que TEI
Le serveur infinity peut héberger plusieurs modèles d’intégration sur un seul serveur (sauf si j’ai manqué cela dans TEI)

C’est très bien. Si vous ne l’avez pas essayé, vous devriez y jeter un coup d’œil !

michaelfeil · Décembre 31, 2024, 2:45

Un ami vient de m’envoyer ce fil de discussion par DM.

Quelques Pour/Contre :

infinity prend en charge les embeddings multimodaux (c’est-à-dire l’envoi d’images/audio)
prise en charge des GPU AMD
plusieurs modèles pris en charge dans le même conteneur (contrôlez le modèle via le paramètre model).
plus de dtypes, par exemple la quantification int8 des poids (principalement cela est sans importance, la mémoire d’activation est plus grande)
de nouveaux modèles sortent souvent via du “code de modélisation personnalisé” expédié dans le dépôt huggingface. Infinity lit ce code pytorch si nécessaire. Cela vous évitera d’avoir à demander en permanence “pouvez-vous prendre en charge les modèles xyz”)
plus de modèles pris en charge (par exemple, debertav2 pour mixedbread)

Contre :

le temps de démarrage à froid de TEI est meilleur

sam · Janvier 15, 2025, 11:23

Salut Michael

@roman a été occupé à restructurer notre configuration d’intégration à :

github.com/discourse/discourse-ai

FEATURE: configurable embeddings

main ← data_driven_embeddings

opened 02:54PM - 06 Jan 25 UTC

romanrizzi

+2124 -1001

Adds a way to configure embeddings similar to what we already have for other con…cepts like LLMs, tools, personas, etc. It hides many old settings and adds a new one called "ai_embeddings_selected_model". We include a data migration to seed the model using these old settings. It also removes the `DiscourseClassifier` service. <img width="1131" alt="Screenshot 2025-01-13 at 11 33 39 AM" src="https://github.com/user-attachments/assets/f6be2f98-1cc6-4bf9-a7d3-2aeb289f353f" /> --- <img width="545" alt="Screenshot 2025-01-13 at 11 33 45 AM" src="https://github.com/user-attachments/assets/5f541f6b-0919-42ba-8182-4f84f8c5ab8a" /> --- <img width="572" alt="Screenshot 2025-01-13 at 11 33 51 AM" src="https://github.com/user-attachments/assets/7310580c-64cd-4194-b536-0511e9ea7e81" />

Nous devrions avoir terminé très, très bientôt, une fois cela fait, l’ajout du support pour infinity sera trivial.

Je pense toujours beaucoup à l’intégration multi-modèle, elle vous donne un raccourci lorsque vous essayez de faire du RAG sur des PDF car vous le traitez simplement en images et intégrez chaque image, évitant ainsi le besoin d’OCR ou d’un coûteux traitement d’image en texte alimenté par LLM.

Une fois que nous aurons terminé ce PR, nous serons plus qu’heureux d’ajouter le support infinity (et le support multi-modèle) à la configuration d’intégration.

Merci d’être passé

Isambard · Janvier 23, 2025, 11:45

Je me demande si la prise en charge de litellm pourrait offrir un raccourci, car vous bénéficiez alors de tous les modèles pris en charge via litellm. D’autres projets semblent l’intégrer.

Sujet		Réponses	Vues
Can´t set ai embedding model Support ai	4	121	Juillet 16, 2025
Discourse AI - Embeddings Site Management ai , ai-search , related-topics	24	6392	Octobre 15, 2025
Self-Hosting an OpenSource LLM for DiscourseAI Self-Hosting ai	7	3530	Janvier 20, 2026
What do I need to insert into the 'ai embeddings discourse service api endpoint' Support ai	3	159	Janvier 7, 2024
Discourse AI - Self-Hosted Guide Self-Hosting ai	61	13197	Avril 30, 2025

Hébergement local des Embeddings pour DiscourseAI

Exécuter avec HuggingFace TEI

Le rendre disponible pour votre instance Discourse

Configuration de DiscourseAI

Sujets connexes