Un ami vient de m’envoyer ce fil de discussion par DM.
Quelques Pour/Contre :
- infinity prend en charge les embeddings multimodaux (c’est-à-dire l’envoi d’images/audio)
- prise en charge des GPU AMD
- plusieurs modèles pris en charge dans le même conteneur (contrôlez le modèle via le paramètre
model). - plus de dtypes, par exemple la quantification int8 des poids (principalement cela est sans importance, la mémoire d’activation est plus grande)
- de nouveaux modèles sortent souvent via du “code de modélisation personnalisé” expédié dans le dépôt huggingface. Infinity lit ce code pytorch si nécessaire. Cela vous évitera d’avoir à demander en permanence “pouvez-vous prendre en charge les modèles xyz”)
- plus de modèles pris en charge (par exemple, debertav2 pour mixedbread)
Contre :
- le temps de démarrage à froid de TEI est meilleur