Estamos ejecutando el modelo completo, pero la versión más pequeña de él con Mistral 7B. Está consumiendo 21 GB de VRAM en nuestros servidores A100 individuales y se ejecuta a través de la imagen de contenedor ghcr.io/xfalcox/llava:latest.
Lamentablemente, el ecosistema de modelos multimodales no es tan maduro como el de los modelos text2text, por lo que aún no podemos aprovechar servidores de inferencia como vLLM o TGI y nos quedamos con esos microservicios únicos. Esto puede cambiar este año, el multimodal está en la hoja de ruta de vLLM, pero hasta entonces, al menos podemos probar las aguas con esos servicios.