AI-Bildbeschriftungsfunktion im Discourse AI-Plugin

Wir führen das vollständige Modell aus, aber die kleinste Version davon mit Mistral 7B. Es benötigt 21 GB VRAM auf unseren einzelnen A100-Servern und wird über das Container-Image ghcr.io/xfalcox/llava:latest ausgeführt.

Leider ist das Ökosystem für multimodale Modelle noch nicht so ausgereift wie das für Text-zu-Text-Modelle, sodass wir noch keine Inferenzserver wie vLLM oder TGI nutzen können und auf diese einmaligen Microservices angewiesen sind. Dies könnte sich dieses Jahr ändern, multimodale Modelle stehen auf der vLLM-Roadmap, aber bis dahin können wir zumindest mit diesen Diensten die Möglichkeiten testen.

5 „Gefällt mir“