Hébergement auto pour Embeddings pour DiscourseAI

Un ami vient de m’envoyer ce fil de discussion par DM.

Quelques Pour/Contre :

  • infinity prend en charge les embeddings multimodaux (c’est-à-dire l’envoi d’images/audio)
  • prise en charge des GPU AMD
  • plusieurs modèles pris en charge dans le même conteneur (contrôlez le modèle via le paramètre model).
  • plus de dtypes, par exemple la quantification int8 des poids (principalement cela est sans importance, la mémoire d’activation est plus grande)
  • de nouveaux modèles sortent souvent via du “code de modélisation personnalisé” expédié dans le dépôt huggingface. Infinity lit ce code pytorch si nécessaire. Cela vous évitera d’avoir à demander en permanence “pouvez-vous prendre en charge les modèles xyz”)
  • plus de modèles pris en charge (par exemple, debertav2 pour mixedbread)

Contre :

  • le temps de démarrage à froid de TEI est meilleur
3 « J'aime »