مشاكل التعرف على الصور في Qwen3-VL-8b ومحتوى النص والصورة المختلط في Gemma3-27b

مرحباً، لقد وجدت موضوعاً https://meta.discourse.org/t/managing-images-in-ai-context/380828. أود معرفة المزيد عن هذا السياق.

هل يمكن لأحد أن يوضح المنطق الحالي لفهم الصور؟


  1. أنا أستخدم Qwen3-VL-8b مع LM Studio بواجهة برمجة تطبيقات متوافقة مع OpenAI. يشير التلميح أدناه إلى أن الصور مدعومة من قبل نماذج Anthropic و Google و OpenAI. لا توجد فرصة لـ Qwen، أليس كذلك؟

  2. Qwen3-VL-8b رسالة جديدة مربكة عندما لا يتمكن النموذج من التعرف على صورة/مستند.

في 3.6.0.beta2:

image

في كلتا الحالتين vision enabled = true و vision enabled = false يتعامل روبوت الذكاء الاصطناعي مع طلب التعرف على الصور بشكل صحيح، دون أي استثناء.

في v2025.12.0-latest: خيار جديد allowed attachments

image

الآن مع vision enabled = true في يُرجع خطأ في الحوار:

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
  1. Gemma3-27b. بعض الأفكار حول التعرف على المحتوى النصي والصوري المختلط. تدعم الاستجابة النص فقط حاليًا. عندما أطلب من النموذج تقديم نص من طبقة التعرف الضوئي على الحروف (OCR) لملف PDF مع صور مفصولة، فإنه يُرجع

image

لا يوجد شيء في هذا الرابط، لقد أنشأ النموذج رابطاً وهمياً.

شكراً!

لا يدعم lmstudio ملفات PDF في واجهة برمجة تطبيقات الإكمال أو الاستجابات.

إنه يدعم الصور/النصوص فقط على ما يبدو لي.

إعجاب واحد (1)