Проблемы распознавания изображений в Qwen3-VL-8b и смешанный текстово-изображенный контент в Gemma3-27b

Здравствуйте, я нашел тему Managing Images in AI context. Я хотел бы узнать больше об этом контексте.

Может ли кто-то прояснить текущую логику распознавания изображений?


  1. Я использую Qwen3-VL-8b с LM Studio через OpenAI-совместимый API. В подсказке ниже указано, что изображения поддерживаются моделями Anthropic, Google и OpenAI. Для Qwen шансов нет, верно?

  2. Qwen3-VL-8b: новое запутывающее сообщение, когда модель не может распознать изображение или документ.

В версии 3.6.0.beta2:

В обоих случаях, когда vision enabled = true и vision enabled = false, AI-бот корректно обрабатывает запрос на распознавание изображения, без каких-либо исключений.

В версии v2025.12.0-latest: новая опция allowed attachments

Теперь при vision enabled = true в диалоге возвращается ошибка:

{"error":"Invalid 'content': 'content' objects must have a 'type' field that is either 'text' or 'image_url'."}
  1. Gemma3-27b: некоторые мысли о распознавании смешанного контента (текст + изображение). В настоящее время ответ поддерживает только текст. Когда я прошу модель извлечь текст из OCR-слоя PDF с отдельными изображениями, она возвращает:

По этому URL ничего нет — модель сгенерировала фейковую ссылку.

Спасибо!

lmstudio не поддерживает PDF в API завершения или ответов.

Насколько я могу судить, он поддерживает только изображения/текст.

Спасибо за ответ! Я отмечу это как решённое и оставлю комментарий здесь, что решение подходит для LM Studio 0.3.x. Команда Studio сейчас работает над версией 0.4.0 с новым REST. Надеюсь, они добавят поддержку PDF в свои ответы.