Discourse AI 插件中的人工智能图像描述功能

我们运行的是完整模型,但最小的版本是 Mistral 7B。它在我们的单个 A100 服务器上占用了 21GB VRAM,并通过 ghcr.io/xfalcox/llava:latest 容器镜像运行。

遗憾的是,多模态模型的生态系统不如 text2text 模型成熟,因此我们还无法利用 vLLM 或 TGI 等推理服务器,只能依赖那些一次性的微服务。这种情况今年可能会有所改变,vLLM 的路线图上已经包含了多模态,但在此之前,我们至少可以利用这些服务试水。

5 个赞