Problemi di riconoscimento immagini con Qwen3-VL-8b e contenuto misto testo-immagine di Gemma3-27b

Ciao, ho trovato un argomento https://meta.discourse.org/t/managing-images-in-ai-context/380828. Vorrei saperne di più su questo contesto.

Qualcuno potrebbe chiarire la logica attuale di comprensione delle immagini?


  1. Uso Qwen3-VL-8b con LM Studio con API compatibile con OpenAI. L’indizio seguente afferma che le immagini sono supportate dai modelli Anthropic, Google e OpenAI. Nessuna possibilità per Qwen, giusto?

  2. Qwen3-VL-8b Nuovo messaggio confuso quando il modello non riesce a riconoscere un’immagine/documento.

In 3.6.0.beta2:

image

Sia nel caso in cui vision enabled = true sia vision enabled = false, l’AI-bot gestisce correttamente la richiesta di riconoscimento dell’immagine, senza alcuna eccezione.

In v2025.12.0-latest: nuova opzione allowed attachments

image

Ora con vision enabled = true in restituisce un errore nella finestra di dialogo:

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
  1. Gemma3-27b. Alcune considerazioni sul riconoscimento di contenuti misti testo+immagine. La risposta attualmente supporta solo testo. Quando chiedo al modello di fornire un testo dallo strato OCR di un PDF con immagini separate, restituisce

image

Non c’è nulla a questo URL, il modello ha creato un link falso.

Grazie!

lmstudio non ha supporto PDF nella completamento o nelle API di risposta.

Supporta solo immagini/testo da quanto posso capire.

1 Mi Piace