Самостоятельное размещение эмбеддингов для DiscourseAI

Discourse · 08.Январь.2024 20:49:12

Плагин Discourse AI обладает множеством функций, требующих для работы векторных представлений (embeddings), таких как «Связанные темы», «Поиск с помощью ИИ», «Помощник ИИ» и предложения категорий и тегов. Хотя вы можете использовать сторонний API, например, настроить ключи API для OpenAI, настроить ключи API для Cloudflare Workers AI или настроить ключи API для Google Gemini, мы создали Discourse AI с первого дня так, чтобы не быть зависимыми от этих сервисов.

Запуск с использованием HuggingFace TEI

HuggingFace предоставляет отличный контейнерный образ, который позволит вам быстро запустить сервис.

Например:

mkdir -p /opt/tei-cache
docker run --rm --gpus all --shm-size 1g -p 8081:80 \
  -v /opt/tei-cache:/data \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id BAAI/bge-large-en-v1.5

Это позволит вам запустить локальный экземпляр модели BAAI/bge-large-en-v1.5 — очень эффективной модели с открытым исходным кодом.

Вы можете проверить, работает ли он, выполнив команду:

curl -X POST \
  'http://localhost:8081/embed' \
  -H 'Content-Type: application/json' \
  -d '{ "inputs": "Testing string for embeddings" }'

При нормальной работе должен быть возвращён массив чисел с плавающей запятой.

Доступность для вашего экземпляра Discourse

Чаще всего этот сервис будет запускаться на выделенном сервере из-за ускорения работы GPU. В таком случае рекомендуется использовать обратный прокси-сервер, завершать TLS-соединения и обеспечить безопасность конечной точки, чтобы к ней мог подключаться только ваш экземпляр Discourse.

Настройка DiscourseAI

Discourse AI теперь использует полностью настраиваемую систему определения векторных представлений, аналогичную настройке больших языковых моделей (LLM). Чтобы настроить ваш самохостинговый конечный пункт:

Перейдите в Администрирование → Плагины → Discourse AI → Векторные представления (Embeddings).
Нажмите Создать, чтобы создать новое определение векторных представлений.
Выберите шаблон, соответствующий вашей модели (например, bge-large-en, bge-m3 или multilingual-e5-large), или выберите Настроить вручную для любой другой модели.
Укажите URL, ведущий на ваш самохостинговый сервер TEI (например, https://your-tei-server:8081).
Используйте кнопку Тест, чтобы проверить подключение перед сохранением.
После сохранения установите параметр ai_embeddings_selected_model на ваше новое определение векторных представлений.

После настройки Discourse автоматически заполнит векторные представления для существующих тем с помощью запланированной фоновой задачи. Если у вас большая очередь, вы можете увеличить скрытый параметр ai_embeddings_backfill_batch_size (по умолчанию: 250), чтобы обрабатывать темы быстрее.

satonotdead · 14.Февраль.2024 01:51:18

Модель bge-m3 должна работать для многоязычных (или не на английском) сайтов?

Falco · 14.Февраль.2024 04:14:47

Да, я протестировал его на той неделе, когда его тихо опубликовали на GitHub, и он работает хорошо. Всё ещё жду, как он покажет себя в рейтинге MTEB, так как в последний раз, когда я смотрел, его там не было.

Тем не менее, у нас есть крупные размещённые экземпляры Discourse, использующие мультиязычный плагин e5, который идёт в комплекте, и он работает очень хорошо.

satonotdead · 14.Февраль.2024 14:24:38

Спасибо. Планировали ли вы включить возможность настройки пользовательских конечных точек с открытым исходным кодом для встраиваний? Я пытаюсь использовать эти модели на Hugging Face.

Falco · 15.Февраль.2024 22:48:07

Извините, я не совсем понял, что вы имеете в виду. Эта тема представляет собой руководство по запуску моделей с открытым исходным кодом для эмбеддингов в Discourse AI.

satonotdead · 16.Февраль.2024 14:37:55

О, извините. Я пытаюсь использовать модель с открытым исходным кодом из HuggingFace через пользовательскую конечную точку и wondering, возможно ли это или это планируется реализовать в ближайшем будущем

fokx · 28.Апрель.2024 03:40:37

Чтобы проверить, что всё работает, используйте следующую команду (для модели BAAI/bge-m3):

curl -X 'POST' \
  'http://localhost:8081/embed'\
  -H 'Content-Type: application/json' \
  -d '{ "inputs": "Testing string for embeddings"}'

Кстати, вы также можете воспользоваться веб-интерфейсом Swagger по адресу http://localhost:8081/docs/.

Isambard · 16.Май.2024 20:19:05

Это также отличный сервер для эмбеддингов:

https://github.com/michaelfeil/infinity

Isambard · 29.Ноябрь.2024 13:06:41

Чтобы сэкономить место, можно ли использовать квантованные эмбеддинги? Я хочу использовать бинарные квантованные эмбеддинги, чтобы значительно уменьшить размер хранилища. Проведя некоторые тесты, я получил >90% производительности при сокращении объема хранилища в 32 раза!

Falco · 29.Ноябрь.2024 13:49:54

Несколько недель назад по умолчанию мы начали хранить эмбеддинги в формате с половинной точностью (занимают вдвое меньше места), а для индексов использовать бинарную квантизацию (в 32 раза меньше), поэтому простое обновление вашего сайта до последней версии должно существенно снизить использование дискового пространства.

Isambard · 29.Ноябрь.2024 22:27:29

Не могли бы вы также добавить:

в список поддерживаемых моделей для векторизации?

Falco · 29.Ноябрь.2024 22:53:02

Мы планируем сделать эмбеддинги настраиваемыми так же, как и LLM, поэтому в скором времени будет поддерживаться любая модель.

Isambard · 30.Ноябрь.2024 00:00:30

Если у кого-то ещё возникают проблемы с эндпоинтами в локальной сети, например 192.168.x.x, — похоже, что Discourse их блокирует (вероятно, по соображениям безопасности), и это ограничение нужно обойти. Я потратил несколько часов, чтобы разобраться в этом!

Isambard · 30.Ноябрь.2024 08:19:44

@Falco это было бы здорово. Тем временем, если я захочу попробовать добавить новую модель векторных представлений, мне достаточно будет добавить:

 lib/embeddings/vector_representations/mxbai-embed-xsmall-v1.rb
 lib/tokenizer/mxbai-embed-xsmall-v1.rb
 tokenizers/mxbai-embed-xsmall-v1.json

и изменить lib/embeddings/vector_representations/base.rb, включив туда новую модель, или нужно изменить что-то ещё?

Isambard · 30.Ноябрь.2024 14:11:07

@Falco Я попробовал добавить модель и отправил pull request. Извините, если я что-то сделал неправильно, так как я не совсем разработчик ПО. Надеюсь, вы сможете посмотреть на это и сказать, подходит ли это для включения.

К сожалению, мне не удалось заставить это работать с TEI. Мне удалось запустить all-mpnet с TEI, но, думаю, что-то не так с тем, что я сделал, чтобы заставить работать mxbai.

Кстати, есть ли шанс добавить поддержку https://github.com/michaelfeil/infinity в качестве сервера эмбеддингов?

РЕДАКТИРОВАНИЕ: Я вижу, что это будет запутанно, так как индексы HNSW в базе данных, похоже, прописаны жестко, поэтому новые модели нужно добавлять в конец, чтобы не нарушить порядок, и каждая новая модель должна добавлять свой собственный индекс.

Falco · 30.Ноябрь.2024 22:51:29

Я настоятельно рекомендую подождать пару недель, пока мы не выпустим поддержку настраиваемых эмбеддингов.

Это должно работать корректно, когда мы выпустим настраиваемые эмбеддинги, но из любопытства: что это даст по сравнению с GitHub - huggingface/text-embeddings-inference: A blazing fast inference solution for text embeddings models · GitHub?

Isambard · 03.Декабрь.2024 23:55:21

Я не следил за TEI, поэтому не буду упоминать преимущества, которые я не проверял недавно, но из того, что я видел недавно:

Поддержка оборудования: infinity имеет лучшую поддержку GPU, чем TEI
Сервер infinity может размещать несколько моделей встраивания на одном сервере (если только я не упустил это в TEI)

Это очень здорово. Если вы еще не пробовали, вам стоит взглянуть!

michaelfeil · 31.Декабрь.2024 14:45:07

Друг только что прислал мне эту ветку в ДМ.

Плюсы и минусы:

Infinity поддерживает мультимодальные эмбеддинги (то есть отправку изображений и аудио) в
поддержку GPU от AMD
возможность запуска нескольких моделей в одном контейнере (управление моделью через параметр model)
больше типов данных, например, квантование весов до int8 (в основном это неактуально, так как память для активаций больше)
новые модели часто появляются в виде «пользовательского кода моделирования», поставляемого в репозитории Hugging Face. Infinity при необходимости читает этот код на PyTorch. Это поможет вам избежать постоянных вопросов «можете ли вы поддержать модель xyz»
поддержка большего числа моделей (например, DeBERTaV2 для Mixedbread)

Минусы:

время холодного запуска у TEI лучше

sam · 15.Январь.2025 23:23:19

Привет, Майкл

@roman активно занимается перестройкой нашей конфигурации эмбеддингов здесь:

github.com/discourse/discourse-ai

FEATURE: configurable embeddings (#1049)

main ← data_driven_embeddings

merged 03:23PM - 21 Jan 25 UTC

romanrizzi

+2124 -1001

Adds a way to configure embeddings similar to what we already have for other con…cepts like LLMs, tools, personas, etc. It hides many old settings and adds a new one called "ai_embeddings_selected_model". We include a data migration to seed the model using these old settings. It also removes the `DiscourseClassifier` service. <img width="1131" alt="Screenshot 2025-01-13 at 11 33 39 AM" src="https://github.com/user-attachments/assets/f6be2f98-1cc6-4bf9-a7d3-2aeb289f353f" /> --- <img width="545" alt="Screenshot 2025-01-13 at 11 33 45 AM" src="https://github.com/user-attachments/assets/5f541f6b-0919-42ba-8182-4f84f8c5ab8a" /> --- <img width="572" alt="Screenshot 2025-01-13 at 11 33 51 AM" src="https://github.com/user-attachments/assets/7310580c-64cd-4194-b536-0511e9ea7e81" />

Мы должны завершить это очень-очень скоро; как только это будет сделано, добавление поддержки Infinity станет тривиальной задачей.

Я всё ещё часто думаю о мультимодальных эмбеддингах. Это даёт вам преимущество при выполнении RAG для PDF-файлов, так как вы просто преобразуете их в изображения и создаёте эмбеддинги для каждого изображения, избегая необходимости в OCR или дорогостоящем преобразовании изображения в текст с помощью LLM.

Как только мы завершим этот PR, мы с радостью добавим поддержку Infinity (и поддержку мультимодальных моделей) в конфигурацию эмбеддингов.

Спасибо, что заглянули

Isambard · 23.Январь.2025 11:45:12

Интересно, не станет ли создание поддержки litellm ускоренным решением, поскольку в этом случае вы получите доступ ко всем моделям, поддерживаемым через litellm. Другие проекты, похоже, внедряют это.

Тема		Ответов	Просм.
Can´t set ai embedding model Support ai	3	157	16.07.2025
Discourse AI - Embeddings Site Management ai , ai-search , related-topics	20	6861	07.07.2025
Self-Hosting an OpenSource LLM for DiscourseAI Self-Hosting ai	12	3868	06.07.2026
What do I need to insert into the 'ai embeddings discourse service api endpoint' Support ai	2	183	07.01.2024
Discourse AI - Self-Hosted Guide Self-Hosting ai	59	14102	20.05.2024