Comment mettre en œuvre Mistral avec des Embeddings

J’ai eu du mal à configurer les Embeddings avec Mistral AI, je soupçonne que Mistral nécessite qu’un modèle soit passé. Savez-vous si cela est possible (et si oui, comment), ou ce qui devrait être fait pour le rendre possible ?

2 « J'aime »

Essayez de définir mistral-embed dans le champ « Nom du modèle », qui apparaît après avoir sélectionné « Fournisseur » comme OpenAI.

2 « J'aime »

Merci, ça fonctionne :+1:

J’ai du mal à trouver quel serait le meilleur tokenizer à utiliser pour ce cas d’utilisation. Le tokenizer Mixtral n’est pas sélectionnable ici. Avez-vous des suggestions ?

La longueur de votre publication ci-dessus en tokens, selon certains tokeniseurs :

OpenAI : 45
Mixtral : 52
Gemini : 47
E5 : 50
bge-large-en : 49
bge-m3 : 50
mpnet : 49

Il semble que Mistral-embed ne diffère pas beaucoup des autres. Et comme il prend en charge une très grande fenêtre de contexte de 8k, vous devriez être tranquille en choisissant n’importe lequel et en laissant un peu de marge en limitant la fenêtre de contexte dans Discourse à 7 ou 7,5k.

1 « J'aime »

On dirait que mistral-embed utilise le même tokenizer que le premier modèle Mixtral, et nous l’expédions déjà de toute façon, alors que penses-tu d’activer ce tokenizer dans la page de configuration des embeddings @Roman_Rizzi ?

2 « J'aime »

Bien sûr. Je ne vois pas pourquoi pas si elle est déjà là. Ce changement l’ajoutera aux options disponibles :

3 « J'aime »

Ce sujet a été automatiquement fermé 30 jours après la dernière réponse. De nouvelles réponses ne sont plus autorisées.