Usa Mistral per gli embedding

Abbiamo riscontrato un altro problema nell’utilizzo di Mistral per gli embedding.

  • Secondo questo argomento, utilizzare OpenAI come provider e l’URL del servizio Mistral come URL
  • Selezionare il tokenizer, la lunghezza della sequenza e la funzione di distanza
  • Impostare il nome del modello su ‘mistral-embed’

Quando viene inserita una dimensione, Mistral segnala un errore indicando che non supporta tale parametro

 Trying to contact the model returned this error: {{
   "object":"error",
   "message":{
      "detail":[
         {
            "type":"extra_forbidden",
            "loc":[
               "body",
               "dimensions"
            ],
            "msg":"Extra inputs are not permitted",
            "input":2000
         }
      ]
   },
   "type":"invalid_request_error",
   "param":null,
   "code":null,
   "raw_status_code":422
}

Questo accade perché Mistral chiama questo parametro output_dimension, quindi non è completamente compatibile con OpenAI.

Quando ometto il parametro dimensions, “Esegui test” funziona, ma ciò impedisce anche di salvare il modello, indicando che “dimensions” è un parametro obbligatorio.

Potere utilizzare Mistral è fondamentale per la conformità al GDPR, quindi sarebbe utile che il parametro dimensions potesse essere omesso (soluzione semplice) o che Mistral potesse diventare un provider di primo livello (soluzione migliore).

4 Mi Piace

Per me supera il test con questa configurazione, che ho seguito seguendo la loro documentazione

Detto questo, consiglierei di utilizzare un modello con prestazioni migliori, come il modello di embedding Qwen 3, e le numerose versioni fine-tune derivate da esso.

Non è l’unico gioco in città conforme al GDPR, anche se potrebbe essere il primo che viene in mente alle persone?

OpenRouter ha un elenco Models | OpenRouter, e le persone possono anche ospitare autonomamente il proprio modello di embedding: è assolutamente fattibile e molto più semplice rispetto all’hosting autonomo di LLM.

3 Mi Piace