Autoalojamiento de Embeddings para DiscourseAI

Un amigo me acaba de enviar este hilo por mensaje directo.

Algunos pros/contras:

  • Infinity admite embeddings multimodales (es decir, enviar imágenes/audio) a
  • Soporte de GPU AMD
  • Múltiples modelos compatibles en el mismo contenedor (controla el modelo a través del parámetro model).
  • Más dtypes, por ejemplo, cuantificación int8 de los pesos (en su mayoría esto es irrelevante, la memoria de activación es mayor)
  • A menudo salen nuevos modelos a través de “código de modelado personalizado” enviado en el repositorio de Hugging Face. Infinity lee este código de PyTorch si es necesario. Esto te ayudará a evitar el “puedes soportar modelos xyz” de forma continua.
  • Más modelos compatibles (por ejemplo, debertav2 para mixedbread)

Contras:

  • El tiempo de arranque en frío de TEI es mejor
3 Me gusta