Funzione di didascalia immagine AI nel plugin Discourse AI

Stiamo eseguendo il modello completo, ma la versione più piccola con Mistral 7B. Richiede 21 GB di VRAM sui nostri server A100 singoli, ed è eseguito tramite l’immagine container ghcr.io/xfalcox/llava:latest.

Purtroppo l’ecosistema per i modelli multimodali non è maturo come quelli text2text, quindi non possiamo ancora sfruttare server di inferenza come vLLM o TGI e siamo rimasti con quei microservizi monouso. Questo potrebbe cambiare quest’anno, il multimodale è nella roadmap di vLLM, ma nel frattempo possiamo almeno testare le acque con questi servizi.

5 Mi Piace