Проблемы распознавания изображений в Qwen3-VL-8b и смешанный текстово-изображенный контент в Gemma3-27b

Ivan_Rapekas · 11.Декабрь.2025 10:55:51

Здравствуйте, я нашел тему Managing Images in AI context. Я хотел бы узнать больше об этом контексте.

Может ли кто-то прояснить текущую логику распознавания изображений?

Я использую Qwen3-VL-8b с LM Studio через OpenAI-совместимый API. В подсказке ниже указано, что изображения поддерживаются моделями Anthropic, Google и OpenAI. Для Qwen шансов нет, верно?
Qwen3-VL-8b: новое запутывающее сообщение, когда модель не может распознать изображение или документ.

В версии 3.6.0.beta2:

В обоих случаях, когда vision enabled = true и vision enabled = false, AI-бот корректно обрабатывает запрос на распознавание изображения, без каких-либо исключений.

В версии v2025.12.0-latest: новая опция allowed attachments

Теперь при vision enabled = true в диалоге возвращается ошибка:

{"error":"Invalid 'content': 'content' objects must have a 'type' field that is either 'text' or 'image_url'."}

Gemma3-27b: некоторые мысли о распознавании смешанного контента (текст + изображение). В настоящее время ответ поддерживает только текст. Когда я прошу модель извлечь текст из OCR-слоя PDF с отдельными изображениями, она возвращает:

По этому URL ничего нет — модель сгенерировала фейковую ссылку.

Спасибо!

sam · 11.Декабрь.2025 11:07:04

lmstudio не поддерживает PDF в API завершения или ответов.

Насколько я могу судить, он поддерживает только изображения/текст.

Ivan_Rapekas · 12.Декабрь.2025 07:33:13

Спасибо за ответ! Я отмечу это как решённое и оставлю комментарий здесь, что решение подходит для LM Studio 0.3.x. Команда Studio сейчас работает над версией 0.4.0 с новым REST. Надеюсь, они добавят поддержку PDF в свои ответы.

Тема		Ответов	Просм.
Ai plugin ocr support Feature ai	11	964	02.04.2024
Gemini ai bot to draw picture in chat Support ai	3	184	14.03.2025
Exploring blocking file upload while interacting with AI bot Feature ai , ai-bot	0	80	11.01.2026
Introduce alt-text for images on chat Feature chat	0	365	22.02.2023
How to solve discourse ai : No endpoints found that support tool use. To learn more about provider routing, Support ai	1	581	20.10.2025

Проблемы распознавания изображений в Qwen3-VL-8b и смешанный текстово-изображенный контент в Gemma3-27b

Связанные темы