Stiamo eseguendo il modello completo, ma la versione più piccola con Mistral 7B. Richiede 21 GB di VRAM sui nostri server A100 singoli, ed è eseguito tramite l’immagine container ghcr.io/xfalcox/llava:latest.
Purtroppo l’ecosistema per i modelli multimodali non è maturo come quelli text2text, quindi non possiamo ancora sfruttare server di inferenza come vLLM o TGI e siamo rimasti con quei microservizi monouso. Questo potrebbe cambiare quest’anno, il multimodale è nella roadmap di vLLM, ma nel frattempo possiamo almeno testare le acque con questi servizi.