Fonctionnalité de légende d'image IA dans le plugin Discourse AI

Nous exécutons le modèle complet, mais la plus petite version avec Mistral 7B. Il utilise 21 Go de VRAM sur nos serveurs A100 uniques et est exécuté via l’image de conteneur ghcr.io/xfalcox/llava:latest.

Malheureusement, l’écosystème des modèles multimodaux n’est pas aussi mature que celui des modèles text2text, nous ne pouvons donc pas encore exploiter les serveurs d’inférence comme vLLM ou TGI et devons nous contenter de ces microservices ponctuels. Cela pourrait changer cette année, le multimodal est sur la feuille de route de vLLM, mais d’ici là, nous pouvons au moins tester les eaux avec ces services.

5 « J'aime »