Problemi di riconoscimento immagini con Qwen3-VL-8b e contenuto misto testo-immagine di Gemma3-27b

Ciao, ho trovato un argomento https://meta.discourse.org/t/managing-images-in-ai-context/380828. Vorrei saperne di più su questo contesto.

Qualcuno potrebbe chiarire la logica attuale di comprensione delle immagini?


  1. Uso Qwen3-VL-8b con LM Studio con API compatibile con OpenAI. L’indizio seguente afferma che le immagini sono supportate dai modelli Anthropic, Google e OpenAI. Nessuna possibilità per Qwen, giusto?

  2. Qwen3-VL-8b Nuovo messaggio confuso quando il modello non riesce a riconoscere un’immagine/documento.

In 3.6.0.beta2:

image

Sia nel caso in cui vision enabled = true sia vision enabled = false, l’AI-bot gestisce correttamente la richiesta di riconoscimento dell’immagine, senza alcuna eccezione.

In v2025.12.0-latest: nuova opzione allowed attachments

image

Ora con vision enabled = true in restituisce un errore nella finestra di dialogo:

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
  1. Gemma3-27b. Alcune considerazioni sul riconoscimento di contenuti misti testo+immagine. La risposta attualmente supporta solo testo. Quando chiedo al modello di fornire un testo dallo strato OCR di un PDF con immagini separate, restituisce

image

Non c’è nulla a questo URL, il modello ha creato un link falso.

Grazie!

lmstudio non ha supporto PDF nella completamento o nelle API di risposta.

Supporta solo immagini/testo da quanto posso capire.

2 Mi Piace

Grazie per la risposta! La contrassegnerò come risolta e lascerò un commento qui che era corretto per LM Studio 0.3.x. Il team di Studio sta attualmente lavorando alla versione 0.4.0 con la nuova REST. Spero che aggiungano il supporto PDF nelle loro risposte.

1 Mi Piace

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.