Mistral 7B の最小バージョンであるフルモデルを実行していますが、単一の A100 サーバーで 21GB の VRAM を消費し、ghcr.io/xfalcox/llava:latest コンテナーイメージを介して実行されています。
残念ながら、マルチモーダル モデルのエコシステムは text2text モデルほど成熟していないため、vLLM や TGI のような推論サーバーを活用できず、これらの使い捨てマイクロサービスに頼らざるを得ません。今年は状況が変わるかもしれませんが、vLLM のロードマップにはマルチモーダルが含まれていますが、それまではこれらのサービスで少なくとも様子見をすることができます。