Selbsthosting von Embeddings für DiscourseAI

michaelfeil · 31. Dezember 2024 um 14:45

Ein Freund hat mir gerade diesen Thread per DM geschickt.

Einige Pro/Contra:

Infinity unterstützt Multi-Modal-Embeddings (aka Senden von Bildern/Audio)
AMD GPU-Unterstützung
Mehrere Modelle im selben Container unterstützt (Steuerung des Modells über den model-Parameter).
Mehr Datentypen, z. B. int8-Quantisierung der Gewichte (meist ist dies irrelevant, der Aktivierungsspeicher ist größer)
Neue Modelle erscheinen oft über “Custom Modeling Code”, der im Huggingface-Repository ausgeliefert wird. Infinity liest diesen PyTorch-Code bei Bedarf. Dies hilft Ihnen, wiederholte Anfragen nach “Können Sie XYZ-Modelle unterstützen” zu vermeiden.
Mehr unterstützte Modelle (z. B. debertav2 für Mixedbread)

Contra:

Thema		Antworten	Aufrufe
Can´t set ai embedding model Support ai	4	117	16. Juli 2025
Discourse AI - Embeddings Site Management ai , ai-search , related-topics	24	6327	15. Oktober 2025
Self-Hosting an OpenSource LLM for DiscourseAI Self-Hosting ai	7	3498	20. Januar 2026
What do I need to insert into the 'ai embeddings discourse service api endpoint' Support ai	3	158	7. Januar 2024
Discourse AI - Self-Hosted Guide Self-Hosting ai	61	13100	30. April 2025