Usa Mistral para embeddings

Hemos encontrado otro problema al usar Mistral para embeddings.

  • Según este tema, utiliza OpenAI como proveedor y la URL del servicio de Mistral como URL.
  • Selecciona el tokenizador, la longitud de la secuencia y la función de distancia.
  • Establece el nombre del modelo en ‘mistral-embed’.

Cuando se introduce una dimensión, Mistral muestra un error indicando que no lo soporta:

 Trying to contact the model returned this error: {{
   "object":"error",
   "message":{
      "detail":[
         {
            "type":"extra_forbidden",
            "loc":[
               "body",
               "dimensions"
            ],
            "msg":"Extra inputs are not permitted",
            "input":2000
         }
      ]
   },
   "type":"invalid_request_error",
   "param":null,
   "code":null,
   "raw_status_code":422
}

Esto se debe a que Mistral llama a este parámetro output_dimension, por lo que no es completamente compatible con OpenAI.

Cuando omito el parámetro dimensions, “Ejecutar prueba” funciona, pero también me impide guardar el modelo, indicándome que “dimensions” es un parámetro obligatorio.

Poder usar Mistral es crucial para el cumplimiento del RGPD, por lo que sería bueno que el parámetro de dimensiones pudiera omitirse (solución sencilla) o que Mistral pudiera ser un proveedor de primera clase (mejor).

4 Me gusta

Para mí, pasa la prueba con esta configuración, que seguí según su documentación

Dicho esto, recomendaría usar un modelo con mejor puntuación, como el modelo de incrustaciones Qwen 3, y la gran cantidad de ajustes finos derivados de él.

No es el único juego disponible en la ciudad que cumple con el RGPD, aunque puede ser el primero que viene a la mente de la gente.

OpenRouter tiene una lista Models | OpenRouter, y las personas también pueden auto-alojar su modelo de incrustaciones; es muy viable y mucho más fácil que auto-alojar LLMs.

3 Me gusta