Функция подписей к изображениям на базе ИИ в плагине Discourse AI

Мы запускаем полную модель, но её наименьшую версию на базе Mistral 7B. Она потребляет 21 ГБ видеопамяти на наших серверах с одним GPU A100 и работает через образ контейнера ghcr.io/xfalcox/llava:latest.

К сожалению, экосистема для мультимодальных моделей пока не так развита, как для текстовых моделей (text2text), поэтому мы не можем пока использовать серверы инференса, такие как vLLM или TGI, и вынуждены полагаться на разовые микросервисы. Это может измениться в течение года: мультимодальность включена в дорожную карту vLLM, но до тех пор мы можем хотя бы протестировать возможности с помощью этих сервисов.

5 лайков