Как внедрить Mistral с использованием эмбеддингов

RGJ · 09.Апрель.2025 15:36:33

У меня возникли трудности с настройкой эмбеддингов через Mistral AI. Я подозреваю, что проблема в том, что Mistral требует указания модели. Подскажите, пожалуйста, возможно ли это (и если да, то как), или что нужно сделать, чтобы реализовать такую возможность?

Falco · 09.Апрель.2025 15:42:24

Попробуйте установить mistral-embed в поле «Название модели», которое появляется после выбора «Провайдер» как OpenAI.

RGJ · 10.Апрель.2025 18:32:00

Спасибо, это работает

Однако мне трудно понять, какой токенизатор лучше всего использовать в данном случае. Токенизатор Mixtral здесь недоступен для выбора. У вас есть какие-либо предложения?

Falco · 10.Апрель.2025 19:00:10

Длина вашего поста в токенах по данным некоторых токенизаторов:

OpenAI: 45
Mixtral: 52
Gemini: 47
E5: 50
bge-large-en: 49
bge-m3: 50
mpnet: 49

Похоже, что Mistral-embed не сильно отличается от остальных. А так как он поддерживает очень большое окно контекста в 8 тыс. токенов, вы можете смело выбрать любой из них, ограничив окно контекста в Discourse до 7 или 7,5 тыс. токенов, чтобы оставить запас.

Falco · 11.Апрель.2025 14:04:40

Похоже, что mistral-embed использует тот же токенизатор, что и первая модель Mixtral, а мы уже поставляем его, так что что вы думаете о включении этого токенизатора на странице конфигурации вложений @Roman?

Roman · 11.Апрель.2025 14:44:35

Конечно. Не вижу причин, почему бы и нет, если это уже есть. Это изменение добавит его в доступные параметры:

Тема		Ответов	Просм.
Use Mistral for embeddings Feature ai	1	108	06.04.2026
Support for Mistral API Feature ai	1	573	26.12.2023
Self-Hosting Embeddings for DiscourseAI Self-Hosting ai , ai-search , related-topics	21	2756	14.04.2025
Can´t set ai embedding model Support ai	3	157	16.07.2025
Warning of embedding `input must have less than 8192 tokens` with discourse ai Support ai	5	204	03.11.2025

Как внедрить Mistral с использованием эмбеддингов

Связанные темы