Wir führen das vollständige Modell aus, aber die kleinste Version davon mit Mistral 7B. Es benötigt 21 GB VRAM auf unseren einzelnen A100-Servern und wird über das Container-Image ghcr.io/xfalcox/llava:latest ausgeführt.
Leider ist das Ökosystem für multimodale Modelle noch nicht so ausgereift wie das für Text-zu-Text-Modelle, sodass wir noch keine Inferenzserver wie vLLM oder TGI nutzen können und auf diese einmaligen Microservices angewiesen sind. Dies könnte sich dieses Jahr ändern, multimodale Modelle stehen auf der vLLM-Roadmap, aber bis dahin können wir zumindest mit diesen Diensten die Möglichkeiten testen.