Problemas de Reconhecimento de Imagem do Qwen3-VL-8b e Conteúdo de Texto/Imagem Misto do Gemma3-27b

Olá, encontrei um tópico https://meta.discourse.org/t/managing-images-in-ai-context/380828. Gostaria de saber mais sobre este contexto.

Alguém poderia esclarecer a lógica atual de compreensão de imagens?


  1. Eu uso Qwen3-VL-8b com LM Studio usando uma API compatível com a OpenAI. A dica abaixo diz que imagens são suportadas por modelos da Anthropic, Google e OpenAI. Sem chance para o Qwen, certo?

  2. Qwen3-VL-8b Nova mensagem confusa quando o modelo não consegue reconhecer uma imagem/documento.

Em 3.6.0.beta2:

image

Tanto no caso em que vision enabled = true quanto em vision enabled = false, o bot de IA lida com a solicitação de reconhecimento de imagem corretamente, sem nenhuma exceção.

Em v2025.12.0-latest: nova opção allowed attachments (anexos permitidos)

image

Agora, com vision enabled = true, retorna um erro no diálogo:

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
  1. Gemma3-27b. Algumas considerações sobre o reconhecimento de conteúdo misto de texto+imagem. A resposta atualmente suporta apenas texto. Quando peço ao modelo para fornecer um texto da camada OCR de um PDF com imagens separadas, ele retorna

image

Não há nada neste URL, o modelo criou um link falso.

Obrigado!

O lmstudio não possui suporte a PDF na API de conclusão ou de respostas.

Aparentemente, ele só suporta imagem/texto.

1 curtida