Qwen3-VL-8b 图像识别问题与 Gemma3-27b 混合图文内容

你好,我找到了一个主题 https://meta.discourse.org/t/managing-images-in-ai-context/380828。我想了解更多关于这个上下文的信息。

谁能澄清一下当前理解图像的逻辑吗?


  1. 我在 LM Studio 中使用 Qwen3-VL-8b,它使用与 OpenAI 兼容的 API。下面的提示说 Anthropic、Google 和 OpenAI 模型支持图像。Qwen 没戏,对吗?

  2. Qwen3-VL-8b 当模型无法识别图片/文档时出现新的令人困惑的消息。

在 3.6.0.beta2 中:

image

无论在 vision enabled = true 还是 vision enabled = false 的情况下,AI 机器人都能正确处理图像识别请求,没有任何异常

在 v2025.12.0-latest 中:新的选项 allowed attachments

image

现在当 vision enabled = true 时,对话框中返回一个错误

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
  1. Gemma3-27b。关于识别混合文本+图像内容的一些想法。目前的响应只支持文本。当我要求模型提供带有分离图像的 PDF 的 OCR 层中的文本时,它返回

image

该 URL 处没有任何内容,模型生成了一个虚假的链接。

谢谢!

lmstudio 在完成或响应 API 中不支持 PDF。

据我所知,它只支持图像/文本。

1 个赞