Olá, encontrei um tópico https://meta.discourse.org/t/managing-images-in-ai-context/380828. Gostaria de saber mais sobre este contexto.
Alguém poderia esclarecer a lógica atual de compreensão de imagens?
-
Eu uso Qwen3-VL-8b com LM Studio usando uma API compatível com a OpenAI. A dica abaixo diz que imagens são suportadas por modelos da Anthropic, Google e OpenAI. Sem chance para o Qwen, certo?
-
Qwen3-VL-8b Nova mensagem confusa quando o modelo não consegue reconhecer uma imagem/documento.
Em 3.6.0.beta2:

Tanto no caso em que vision enabled = true quanto em vision enabled = false, o bot de IA lida com a solicitação de reconhecimento de imagem corretamente, sem nenhuma exceção.
Em v2025.12.0-latest: nova opção allowed attachments (anexos permitidos)

Agora, com vision enabled = true, retorna um erro no diálogo:
{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
- Gemma3-27b. Algumas considerações sobre o reconhecimento de conteúdo misto de texto+imagem. A resposta atualmente suporta apenas texto. Quando peço ao modelo para fornecer um texto da camada OCR de um PDF com imagens separadas, ele retorna

Não há nada neste URL, o modelo criou um link falso.
Obrigado!