Autohosting di Embeddings per DiscourseAI

Un amico mi ha appena inviato questo thread tramite DM.

Pro/Contro:

  • infinity supporta embedding multimodali (ovvero invia immagini/audio) a
  • supporto GPU AMD
  • più modelli supportati nello stesso container (controlla il modello tramite il parametro model).
  • più dtypes, ad esempio quantizzazione int8 dei pesi (principalmente questo è irrilevante, la memoria di attivazione è maggiore)
  • nuovi modelli spesso escono tramite “codice di modellazione personalizzato” spedito nel repository huggingface. Infinity legge questo codice pytorch se necessario. Questo ti aiuterà ad evitare la richiesta “puoi supportare modelli xyz” su base continuativa)
  • più modelli supportati (ad esempio debertav2 per mixedbread)

Contro:

  • il tempo di avvio a freddo di TEI è migliore
3 Mi Piace