Используйте Mistral для эмбеддингов

Мы столкнулись с ещё одной проблемой при использовании Mistral для эмбеддингов.

  • Согласно этой теме, используйте OpenAI в качестве провайдера, а URL сервиса Mistral — в качестве URL.
  • Выберите токенизатор, длину последовательности и функцию расстояния.
  • Установите имя модели в ‘mistral-embed’.

При указании размерности Mistral выдаёт ошибку о том, что такая размерность не поддерживается:

 Trying to contact the model returned this error: {{
   "object":"error",
   "message":{
      "detail":[
         {
            "type":"extra_forbidden",
            "loc":[
               "body",
               "dimensions"
            ],
            "msg":"Extra inputs are not permitted",
            "input":2000
         }
      ]
   },
   "type":"invalid_request_error",
   "param":null,
   "code":null,
   "raw_status_code":422
}

Это связано с тем, что в Mistral этот параметр называется output_dimension, поэтому полная совместимость с OpenAI отсутствует.

Если параметр dimensions не указывать, кнопка “Run Test” работает, но при этом невозможно сохранить модель — система сообщает, что параметр “dimensions” является обязательным.

Возможность использования Mistral крайне важна для соответствия требованиям GDPR, поэтому было бы хорошо, если бы параметр dimensions можно было опускать (простое решение) или если бы Mistral стал провайдером первого класса (лучшее решение).

4 лайка

Для меня с этой конфигурацией тест проходит, я настроил её согласно их документации

Тем не менее, я рекомендую использовать модель с более высокими показателями, например, модель встраивания Qwen 3, а также множество моделей, дообученных на её основе.

Это не единственное решение, соответствующее GDPR, хотя, возможно, оно первое, что приходит людям в голову?

На OpenRouter есть список: Models | OpenRouter, а пользователи также могут самостоятельно разместить свою модель встраивания — это вполне реально и гораздо проще, чем развёртывание LLM.

3 лайка