Hébergement auto pour Embeddings pour DiscourseAI

Discourse · Janvier 8, 2024, 8:49

Le plugin Discourse AI possède de nombreuses fonctionnalités qui nécessitent des embeddings pour fonctionner, telles que les sujets connexes, la recherche par IA, la suggestion de catégories et d’étiquettes par l’assistant IA, etc. Bien que vous puissiez utiliser une API tierce, comme Configurer les clés API pour OpenAI, Configurer les clés API pour Cloudflare Workers AI ou Configurer les clés API pour Google Gemini, nous avons conçu Discourse AI dès le premier jour pour ne pas être limité à ceux-ci.

Exécution avec HuggingFace TEI

HuggingFace fournit une image de conteneur impressionnante qui peut vous permettre de démarrer rapidement.

Par exemple :

mkd ir -p /opt/tei-cache
docker run --rm --gpus all --shm-size 1g -p 8081:80 \
  -v /opt/tei-cache:/data \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id BAAI/bge-large-en-v1.5

Cela devrait vous permettre de démarrer rapidement une instance locale de BAAI/bge-large-en-v1.5, un modèle open-source très performant.
Vous pouvez vérifier si cela fonctionne avec

curl http://localhost:8081/ \
    -X POST \
    -H 'Content-Type: application/json' \
    "{ \"inputs\": \"Testing string for embeddings\" }"

Ce qui devrait renvoyer un tableau de nombres flottants en fonctionnement normal.

Rendre disponible pour votre instance Discourse

La plupart du temps, vous exécuterez cela sur un serveur dédié en raison de l’accélération GPU. Lorsque vous le faites, je recommande d’exécuter un proxy inverse, de faire la terminaison TLS et de sécuriser le point de terminaison afin qu’il ne puisse être connecté que par votre instance Discourse.

Configuration de DiscourseAI

Discourse AI inclut des paramètres de site pour configurer le serveur d’inférence pour les modèles open-source. Vous devriez le pointer vers votre serveur en utilisant l’onglet Embeddings dans les paramètres d’administration du plugin AI.

satonotdead · Février 14, 2024, 1:51

Le modèle bge-m3 devrait-il fonctionner pour les sites multilingues (ou non anglais) ?

Falco · Février 14, 2024, 4:14

Oui, j’ai joué avec la semaine où il a été partagé silencieusement sur GitHub et cela fonctionne bien. J’attends toujours de voir comment il atterrit dans les classements MTEB, car il n’y était pas la dernière fois que j’ai regardé.

Cela dit, nous avons de grandes instances Discourse hébergées qui utilisent le plugin multilingue qu’il expédie, e5, et il fonctionne très bien.

satonotdead · Février 14, 2024, 2:24

Merci, avez-vous prévu d’activer des points d’accès personnalisés open-source pour les intégrations ? J’essaie d’utiliser ces modèles sur Huggingface.

Falco · Février 15, 2024, 10:48

Désolé, je ne comprends pas ce que vous essayez de communiquer ici. Ce sujet est un guide sur la façon d’exécuter des modèles open-source pour les intégrations Discourse AI.

satonotdead · Février 16, 2024, 2:37

Oh, désolé pour ça. J’essaie d’utiliser un modèle open-source à partir d’un point de terminaison personnalisé HuggingFace et je me demande si c’est possible ou si c’est prévu pour être activé dans un avenir proche

fokx · Avril 28, 2024, 3:40

Pour vérifier si cela fonctionne, la commande suivante fonctionne pour moi (avec le modèle BAAI/bge-m3) :

curl -X 'POST' \
  'http://localhost:8081/embed' \
  -H 'Content-Type: application/json' \
  -d '{ "inputs": "Testing string for embeddings"}'

Au fait, vous pouvez également utiliser l’interface Web Swagger à l’adresse http://localhost:8081/docs/.

Isambard · Mai 16, 2024, 8:19

Ceci est également un bon serveur d’intégration :

Isambard · Novembre 29, 2024, 1:06

Pour économiser de l’espace, est-il possible d’utiliser des embeddings quantifiés ? J’aimerais utiliser des embeddings quantifiés binaires pour réduire considérablement la taille de stockage. Après quelques tests, j’obtiens plus de 90 % des performances avec 32 fois moins de stockage !

Falco · Novembre 29, 2024, 1:49

Nous stockons les embeddings en demi-précision (demi-espace de stockage) et utilisons la quantification binaire pour les index (32 fois plus petits) par défaut depuis quelques semaines, donc une simple mise à jour de votre site vers la dernière version devrait vous permettre de réduire considérablement l’utilisation du disque.

Isambard · Novembre 29, 2024, 10:27

Pourriez-vous également ajouter :

aux modèles d’intégration pris en charge ?

Falco · Novembre 29, 2024, 10:53

Nous prévoyons de rendre les embeddings configurables de la même manière que nous l’avons fait avec les LLM, de sorte que tout modèle sera bientôt compatible.

Isambard · Novembre 30, 2024, 12:00

Si d’autres personnes rencontrent des problèmes avec les points de terminaison sur le réseau local, par exemple 192.168.x.x, il semble qu’ils soient bloqués par Discourse (vraisemblablement pour des raisons de sécurité) et que le blocage doive être contourné. J’ai perdu quelques heures à comprendre cela !

Isambard · Novembre 30, 2024, 8:19

@Falco, ce serait formidable. Entre-temps, si je voulais essayer d’ajouter un nouveau modèle d’intégration, dois-je simplement ajouter :

 lib/embeddings/vector_representations/mxbai-embed-xsmall-v1.rb
 lib/tokenizer/mxbai-embed-xsmall-v1.rb
 tokenizers/mxbai-embed-xsmall-v1.json

et modifier lib/embeddings/vector_representations/base.rb pour inclure le nouveau modèle, ou y a-t-il autre chose que je doive changer ?

Isambard · Novembre 30, 2024, 2:11

@Falco J’ai essayé d’ajouter le modèle et j’ai envoyé une pull request. Mes excuses si j’ai fait quelque chose de mal, car je ne suis pas vraiment un développeur logiciel. J’espérais que vous pourriez peut-être y jeter un œil et voir si c’est acceptable pour inclusion.

Malheureusement, je n’ai pas réussi à le faire fonctionner avec TEI. J’ai pu faire fonctionner all-mpnet avec TEI, mais je pense qu’il y a quelque chose qui ne va pas dans ce que j’ai fait pour faire fonctionner mxbai.

Au fait, y a-t-il une chance de supporter https://github.com/michaelfeil/infinity comme serveur d’intégration ?

EDIT : Je vois que cela va être compliqué car les index HNSW dans la base de données semblent être codés en dur, donc de nouveaux modèles doivent être ajoutés à la fin pour éviter de perturber l’ordre et chaque nouveau modèle doit ajouter son propre index.

Falco · Novembre 30, 2024, 10:51

Je recommande vraiment d’attendre quelques semaines jusqu’à ce que nous lancions la prise en charge des embeddings configurables.

Cela devrait fonctionner correctement lorsque nous lancerons les embeddings configurables, mais par curiosité, qu’apporterait cela par rapport à GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models ?

Isambard · Décembre 3, 2024, 11:55

Je n’ai pas suivi TEI, donc je ne mentionnerai pas les avantages que je n’ai pas testés récemment, mais parmi les choses que j’ai vues récemment :

Prise en charge matérielle : infinity a une meilleure prise en charge GPU que TEI
Le serveur infinity peut héberger plusieurs modèles d’intégration sur un seul serveur (sauf si j’ai manqué cela dans TEI)

C’est très bien. Si vous ne l’avez pas essayé, vous devriez y jeter un coup d’œil !

michaelfeil · Décembre 31, 2024, 2:45

Un ami vient de m’envoyer ce fil de discussion par DM.

Quelques Pour/Contre :

infinity prend en charge les embeddings multimodaux (c’est-à-dire l’envoi d’images/audio)
prise en charge des GPU AMD
plusieurs modèles pris en charge dans le même conteneur (contrôlez le modèle via le paramètre model).
plus de dtypes, par exemple la quantification int8 des poids (principalement cela est sans importance, la mémoire d’activation est plus grande)
de nouveaux modèles sortent souvent via du “code de modélisation personnalisé” expédié dans le dépôt huggingface. Infinity lit ce code pytorch si nécessaire. Cela vous évitera d’avoir à demander en permanence “pouvez-vous prendre en charge les modèles xyz”)
plus de modèles pris en charge (par exemple, debertav2 pour mixedbread)

Contre :

le temps de démarrage à froid de TEI est meilleur

sam · Janvier 15, 2025, 11:23

Salut Michael

@roman a été occupé à restructurer notre configuration d’intégration à :

github.com/discourse/discourse-ai

FEATURE: configurable embeddings

main ← data_driven_embeddings

opened 02:54PM - 06 Jan 25 UTC

romanrizzi

+2124 -1001

Adds a way to configure embeddings similar to what we already have for other con…cepts like LLMs, tools, personas, etc. It hides many old settings and adds a new one called "ai_embeddings_selected_model". We include a data migration to seed the model using these old settings. It also removes the `DiscourseClassifier` service. <img width="1131" alt="Screenshot 2025-01-13 at 11 33 39 AM" src="https://github.com/user-attachments/assets/f6be2f98-1cc6-4bf9-a7d3-2aeb289f353f" /> --- <img width="545" alt="Screenshot 2025-01-13 at 11 33 45 AM" src="https://github.com/user-attachments/assets/5f541f6b-0919-42ba-8182-4f84f8c5ab8a" /> --- <img width="572" alt="Screenshot 2025-01-13 at 11 33 51 AM" src="https://github.com/user-attachments/assets/7310580c-64cd-4194-b536-0511e9ea7e81" />

Nous devrions avoir terminé très, très bientôt, une fois cela fait, l’ajout du support pour infinity sera trivial.

Je pense toujours beaucoup à l’intégration multi-modèle, elle vous donne un raccourci lorsque vous essayez de faire du RAG sur des PDF car vous le traitez simplement en images et intégrez chaque image, évitant ainsi le besoin d’OCR ou d’un coûteux traitement d’image en texte alimenté par LLM.

Une fois que nous aurons terminé ce PR, nous serons plus qu’heureux d’ajouter le support infinity (et le support multi-modèle) à la configuration d’intégration.

Merci d’être passé

Isambard · Janvier 23, 2025, 11:45

Je me demande si la prise en charge de litellm pourrait offrir un raccourci, car vous bénéficiez alors de tous les modèles pris en charge via litellm. D’autres projets semblent l’intégrer.

Sujet		Réponses	Vues
Can´t set ai embedding model Support ai	4	89	Juillet 16, 2025
Discourse AI - Embeddings Site Management ai , ai-search , related-topics	24	6044	Octobre 15, 2025
What do I need to insert into the 'ai embeddings discourse service api endpoint' Support ai	3	150	Janvier 7, 2024
Discourse AI - Self-Hosted Guide Self-Hosting ai	61	12429	Avril 30, 2025
Estimating cost of enabling Discourse AI for related content and search Support ai	2	48	Octobre 28, 2025

Hébergement auto pour Embeddings pour DiscourseAI

Exécution avec HuggingFace TEI

Rendre disponible pour votre instance Discourse

Configuration de DiscourseAI

Sujets connexes