Un amigo me acaba de enviar este hilo por mensaje directo.
Algunos pros/contras:
- Infinity admite embeddings multimodales (es decir, enviar imágenes/audio) a
- Soporte de GPU AMD
- Múltiples modelos compatibles en el mismo contenedor (controla el modelo a través del parámetro
model). - Más dtypes, por ejemplo, cuantificación int8 de los pesos (en su mayoría esto es irrelevante, la memoria de activación es mayor)
- A menudo salen nuevos modelos a través de “código de modelado personalizado” enviado en el repositorio de Hugging Face. Infinity lee este código de PyTorch si es necesario. Esto te ayudará a evitar el “puedes soportar modelos xyz” de forma continua.
- Más modelos compatibles (por ejemplo, debertav2 para mixedbread)
Contras:
- El tiempo de arranque en frío de TEI es mejor