مشاكل التعرف على الصور في Qwen3-VL-8b ومحتوى النص والصورة المختلط في Gemma3-27b

مرحباً، لقد وجدت موضوعاً https://meta.discourse.org/t/managing-images-in-ai-context/380828. أود معرفة المزيد عن هذا السياق.

هل يمكن لأحد أن يوضح المنطق الحالي لفهم الصور؟


  1. أنا أستخدم Qwen3-VL-8b مع LM Studio بواجهة برمجة تطبيقات متوافقة مع OpenAI. يشير التلميح أدناه إلى أن الصور مدعومة من قبل نماذج Anthropic و Google و OpenAI. لا توجد فرصة لـ Qwen، أليس كذلك؟

  2. Qwen3-VL-8b رسالة جديدة مربكة عندما لا يتمكن النموذج من التعرف على صورة/مستند.

في 3.6.0.beta2:

image

في كلتا الحالتين vision enabled = true و vision enabled = false يتعامل روبوت الذكاء الاصطناعي مع طلب التعرف على الصور بشكل صحيح، دون أي استثناء.

في v2025.12.0-latest: خيار جديد allowed attachments

image

الآن مع vision enabled = true في يُرجع خطأ في الحوار:

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
  1. Gemma3-27b. بعض الأفكار حول التعرف على المحتوى النصي والصوري المختلط. تدعم الاستجابة النص فقط حاليًا. عندما أطلب من النموذج تقديم نص من طبقة التعرف الضوئي على الحروف (OCR) لملف PDF مع صور مفصولة، فإنه يُرجع

image

لا يوجد شيء في هذا الرابط، لقد أنشأ النموذج رابطاً وهمياً.

شكراً!

لا يدعم lmstudio ملفات PDF في واجهة برمجة تطبيقات الإكمال أو الاستجابات.

إنه يدعم الصور/النصوص فقط على ما يبدو لي.

إعجابَين (2)

شكرًا لك على الرد! سأقوم بوضع علامة على أنه تم الحل وسأترك تعليقًا هنا بأنه كان صحيحًا لـ LM Studio 0.3.x. يعمل فريق الاستوديو حاليًا على الإصدار 0.4.0 مع واجهة برمجة تطبيقات REST جديدة. آمل أن يضيفوا دعم PDF في ردودهم.

إعجاب واحد (1)

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.