Bonjour, j’ai trouvé un sujet https://meta.discourse.org/t/managing-images-in-ai-context/380828. J’aimerais en savoir plus sur ce contexte.
Quelqu’un pourrait-il clarifier la logique actuelle de compréhension des images ?
-
J’utilise Qwen3-VL-8b avec LM Studio avec une API compatible OpenAI. L’indice ci-dessous indique que les images sont prises en charge par les modèles Anthropic, Google et OpenAI. Aucune chance pour Qwen, n’est-ce pas ?
-
Qwen3-VL-8b Nouveau message déroutant lorsque le modèle ne peut pas reconnaître une image/un document.
Dans 3.6.0.beta2 :

Dans les deux cas où vision enabled = true et vision enabled = false, le bot IA gère correctement la demande de reconnaissance d’image, sans aucune exception.
Dans v2025.12.0-latest : nouvelle option allowed attachments (pièces jointes autorisées)

Maintenant, avec vision enabled = true dans retourne une erreur dans la boîte de dialogue :
{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
- Gemma3-27b. Quelques réflexions sur la reconnaissance de contenu mixte texte+image. La réponse prend actuellement en charge le texte uniquement. Lorsque je demande au modèle de fournir un texte à partir de la couche OCR d’un PDF avec des images séparées, il renvoie

Il n’y a rien à cette URL, le modèle a créé un faux lien.
Merci !