Selbsthosting von Embeddings für DiscourseAI

Ein Freund hat mir gerade diesen Thread per DM geschickt.

Einige Pro/Contra:

  • Infinity unterstützt Multi-Modal-Embeddings (aka Senden von Bildern/Audio)
  • AMD GPU-Unterstützung
  • Mehrere Modelle im selben Container unterstützt (Steuerung des Modells über den model-Parameter).
  • Mehr Datentypen, z. B. int8-Quantisierung der Gewichte (meist ist dies irrelevant, der Aktivierungsspeicher ist größer)
  • Neue Modelle erscheinen oft über “Custom Modeling Code”, der im Huggingface-Repository ausgeliefert wird. Infinity liest diesen PyTorch-Code bei Bedarf. Dies hilft Ihnen, wiederholte Anfragen nach “Können Sie XYZ-Modelle unterstützen” zu vermeiden.
  • Mehr unterstützte Modelle (z. B. debertav2 für Mixedbread)

Contra:

  • Die Startzeit von TEI ist besser
3 „Gefällt mir“