Problèmes de reconnaissance d'images Qwen3-VL-8b et contenu texte-image mixte Gemma3-27b

Bonjour, j’ai trouvé un sujet https://meta.discourse.org/t/managing-images-in-ai-context/380828. J’aimerais en savoir plus sur ce contexte.

Quelqu’un pourrait-il clarifier la logique actuelle de compréhension des images ?


  1. J’utilise Qwen3-VL-8b avec LM Studio avec une API compatible OpenAI. L’indice ci-dessous indique que les images sont prises en charge par les modèles Anthropic, Google et OpenAI. Aucune chance pour Qwen, n’est-ce pas ?

  2. Qwen3-VL-8b Nouveau message déroutant lorsque le modèle ne peut pas reconnaître une image/un document.

Dans 3.6.0.beta2 :

image

Dans les deux cas où vision enabled = true et vision enabled = false, le bot IA gère correctement la demande de reconnaissance d’image, sans aucune exception.

Dans v2025.12.0-latest : nouvelle option allowed attachments (pièces jointes autorisées)

image

Maintenant, avec vision enabled = true dans retourne une erreur dans la boîte de dialogue :

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
  1. Gemma3-27b. Quelques réflexions sur la reconnaissance de contenu mixte texte+image. La réponse prend actuellement en charge le texte uniquement. Lorsque je demande au modèle de fournir un texte à partir de la couche OCR d’un PDF avec des images séparées, il renvoie

image

Il n’y a rien à cette URL, le modèle a créé un faux lien.

Merci !

lmstudio n’a pas de prise en charge PDF dans l’API de complétion ou de réponse.

Il ne prend en charge que l’image/le texte d’après ce que je peux voir.

2 « J'aime »

Merci pour votre réponse ! Je vais marquer cela comme résolu et laisser un commentaire ici indiquant que c’était correct pour LM Studio 0.3.x. L’équipe de Studio travaille actuellement sur la version 0.4.0 avec une nouvelle API REST. J’espère qu’ils ajouteront la prise en charge des PDF dans leurs réponses.

1 « J'aime »

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.