نحن نشغل النموذج الكامل، ولكن بأصغر إصدار منه مع Mistral 7B. يستغرق 21 جيجابايت من ذاكرة الوصول العشوائي للفيديو (VRAM) في خوادمنا الفردية A100، ويتم تشغيله عبر صورة حاوية ghcr.io/xfalcox/llava:latest.
للأسف، النظام البيئي للنماذج متعددة الوسائط ليس ناضجًا مثل نماذج النص إلى نص (text2text)، لذلك لا يمكننا بعد الاستفادة من خوادم الاستدلال مثل vLLM أو TGI ونبقى مع تلك الخدمات المصغرة لمرة واحدة. قد يتغير هذا هذا العام، فالنماذج متعددة الوسائط موجودة على خارطة طريق vLLM، ولكن حتى ذلك الحين يمكننا على الأقل اختبار الأجواء بهذه الخدمات.