Здравствуйте, я нашел тему Managing Images in AI context. Я хотел бы узнать больше об этом контексте.
Может ли кто-то прояснить текущую логику распознавания изображений?
-
Я использую Qwen3-VL-8b с LM Studio через OpenAI-совместимый API. В подсказке ниже указано, что изображения поддерживаются моделями Anthropic, Google и OpenAI. Для Qwen шансов нет, верно?
-
Qwen3-VL-8b: новое запутывающее сообщение, когда модель не может распознать изображение или документ.
В версии 3.6.0.beta2:
В обоих случаях, когда vision enabled = true и vision enabled = false, AI-бот корректно обрабатывает запрос на распознавание изображения, без каких-либо исключений.
В версии v2025.12.0-latest: новая опция allowed attachments
Теперь при vision enabled = true в диалоге возвращается ошибка:
{"error":"Invalid 'content': 'content' objects must have a 'type' field that is either 'text' or 'image_url'."}
- Gemma3-27b: некоторые мысли о распознавании смешанного контента (текст + изображение). В настоящее время ответ поддерживает только текст. Когда я прошу модель извлечь текст из OCR-слоя PDF с отдельными изображениями, она возвращает:
По этому URL ничего нет — модель сгенерировала фейковую ссылку.
Спасибо!


