Recurso de Legenda de Imagem AI no Plugin Discourse AI

Estamos executando o modelo completo, mas a menor versão dele com Mistral 7B. Ele está consumindo 21 GB de VRAM em nossos servidores A100 únicos e é executado através da imagem de contêiner ghcr.io/xfalcox/llava:latest.

Infelizmente, o ecossistema para modelos multimodais não é tão maduro quanto os de texto para texto, então ainda não podemos aproveitar servidores de inferência como vLLM ou TGI e ficamos com esses microsserviços pontuais. Isso pode mudar este ano, o multimodal está no roteiro do vLLM, mas até lá podemos pelo menos testar as águas com esses serviços.

5 curtidas