У меня возникли трудности с настройкой эмбеддингов через Mistral AI. Я подозреваю, что проблема в том, что Mistral требует указания модели. Подскажите, пожалуйста, возможно ли это (и если да, то как), или что нужно сделать, чтобы реализовать такую возможность?
Попробуйте установить mistral-embed в поле «Название модели», которое появляется после выбора «Провайдер» как OpenAI.
Спасибо, это работает ![]()
Однако мне трудно понять, какой токенизатор лучше всего использовать в данном случае. Токенизатор Mixtral здесь недоступен для выбора. У вас есть какие-либо предложения?
Длина вашего поста в токенах по данным некоторых токенизаторов:
OpenAI: 45
Mixtral: 52
Gemini: 47
E5: 50
bge-large-en: 49
bge-m3: 50
mpnet: 49
Похоже, что Mistral-embed не сильно отличается от остальных. А так как он поддерживает очень большое окно контекста в 8 тыс. токенов, вы можете смело выбрать любой из них, ограничив окно контекста в Discourse до 7 или 7,5 тыс. токенов, чтобы оставить запас.
Похоже, что mistral-embed использует тот же токенизатор, что и первая модель Mixtral, а мы уже поставляем его, так что что вы думаете о включении этого токенизатора на странице конфигурации вложений @Roman?
Конечно. Не вижу причин, почему бы и нет, если это уже есть. Это изменение добавит его в доступные параметры: