Problemas de Reconhecimento de Imagem do Qwen3-VL-8b e Conteúdo de Texto/Imagem Misto do Gemma3-27b

Ivan_Rapekas · Dezembro 11, 2025, 10:55am

Olá, encontrei um tópico https://meta.discourse.org/t/managing-images-in-ai-context/380828. Gostaria de saber mais sobre este contexto.

Alguém poderia esclarecer a lógica atual de compreensão de imagens?

Eu uso Qwen3-VL-8b com LM Studio usando uma API compatível com a OpenAI. A dica abaixo diz que imagens são suportadas por modelos da Anthropic, Google e OpenAI. Sem chance para o Qwen, certo?
Qwen3-VL-8b Nova mensagem confusa quando o modelo não consegue reconhecer uma imagem/documento.

Em 3.6.0.beta2:

Tanto no caso em que vision enabled = true quanto em vision enabled = false, o bot de IA lida com a solicitação de reconhecimento de imagem corretamente, sem nenhuma exceção.

Em v2025.12.0-latest: nova opção allowed attachments (anexos permitidos)

Agora, com vision enabled = true, retorna um erro no diálogo:

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}

Gemma3-27b. Algumas considerações sobre o reconhecimento de conteúdo misto de texto+imagem. A resposta atualmente suporta apenas texto. Quando peço ao modelo para fornecer um texto da camada OCR de um PDF com imagens separadas, ele retorna

Não há nada neste URL, o modelo criou um link falso.

Obrigado!

sam · Dezembro 11, 2025, 11:07am

O lmstudio não possui suporte a PDF na API de conclusão ou de respostas.

Aparentemente, ele só suporta imagem/texto.

Ivan_Rapekas · Dezembro 12, 2025, 7:33am

Obrigado pela resposta! Vou marcar como resolvido e deixar um comentário aqui de que funcionou para o LM Studio 0.3.x. A equipe do Studio está trabalhando na versão 0.4.0 com um novo REST. Espero que eles adicionem suporte a PDF em suas respostas.

system · Janeiro 11, 2026, 7:33am

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

Tópico		Respostas	Visualizações
Ai plugin ocr support Feature ai	11	871	2 de Abril de 2024
Gemini ai bot to draw picture in chat Support ai	4	150	13 de Abril de 2025
Exploring blocking file upload while interacting with AI bot Feature ai , ai-bot	0	50	11 de Janeiro de 2026
Managing Images in AI context Dev	0	74	28 de Agosto de 2025
Introduce alt-text for images on chat Feature chat	0	351	22 de Fevereiro de 2023

Problemas de Reconhecimento de Imagem do Qwen3-VL-8b e Conteúdo de Texto/Imagem Misto do Gemma3-27b

Tópicos relacionados