Ein Freund hat mir gerade diesen Thread per DM geschickt.
Einige Pro/Contra:
- Infinity unterstützt Multi-Modal-Embeddings (aka Senden von Bildern/Audio)
- AMD GPU-Unterstützung
- Mehrere Modelle im selben Container unterstützt (Steuerung des Modells über den
model-Parameter). - Mehr Datentypen, z. B. int8-Quantisierung der Gewichte (meist ist dies irrelevant, der Aktivierungsspeicher ist größer)
- Neue Modelle erscheinen oft über “Custom Modeling Code”, der im Huggingface-Repository ausgeliefert wird. Infinity liest diesen PyTorch-Code bei Bedarf. Dies hilft Ihnen, wiederholte Anfragen nach “Können Sie XYZ-Modelle unterstützen” zu vermeiden.
- Mehr unterstützte Modelle (z. B. debertav2 für Mixedbread)
Contra:
- Die Startzeit von TEI ist besser