Utilisez Mistral pour les embeddings

Nous avons rencontré un autre problème lors de l’utilisation de Mistral pour les embeddings.

  • Selon ce sujet, utilisez OpenAI comme fournisseur et l’URL du service Mistral comme URL.
  • Sélectionnez le tokenizer, la longueur de séquence et la fonction de distance.
  • Définissez le nom du modèle sur ‘mistral-embed’.

Lorsqu’une dimension est entrée, Mistral signale qu’il ne prend pas cela en charge :

 Trying to contact the model returned this error: {{
   "object":"error",
   "message":{
      "detail":[
         {
            "type":"extra_forbidden",
            "loc":[
               "body",
               "dimensions"
            ],
            "msg":"Extra inputs are not permitted",
            "input":2000
         }
      ]
   },
   "type":"invalid_request_error",
   "param":null,
   "code":null,
   "raw_status_code":422
}

Cela est dû au fait que Mistral appelle cela output_dimension, il n’est donc pas entièrement compatible avec OpenAI.

Lorsque j’omets le paramètre dimensions, le bouton « Exécuter le test » fonctionne, mais cela m’empêche également d’enregistrer le modèle, en indiquant que « dimensions » est un paramètre obligatoire.

La possibilité d’utiliser Mistral est cruciale pour la conformité au RGPD. Il serait donc souhaitable que le paramètre dimensions puisse être omis (solution simple) ou que Mistral devienne un fournisseur de premier plan (meilleure solution).

5 « J'aime »

Cela passe le test pour moi avec cette configuration, que j’ai mise en place en suivant leur documentation

Cela dit, je recommande d’utiliser un modèle qui obtient de meilleurs scores, comme le modèle d’embedding Qwen 3, ainsi que les nombreuses versions affinées qui en dérivent.

Ce n’est pas le seul jeu conforme au RGPD sur le marché, même si c’est peut-être le premier qui vient à l’esprit des gens.

OpenRouter propose une liste Models | OpenRouter, et les utilisateurs peuvent également auto-héberger leur modèle d’embedding. C’est tout à fait réalisable et beaucoup plus simple que l’auto-hébergement de LLM.

4 « J'aime »