مرحباً، لقد وجدت موضوعاً https://meta.discourse.org/t/managing-images-in-ai-context/380828. أود معرفة المزيد عن هذا السياق.
هل يمكن لأحد أن يوضح المنطق الحالي لفهم الصور؟
-
أنا أستخدم Qwen3-VL-8b مع LM Studio بواجهة برمجة تطبيقات متوافقة مع OpenAI. يشير التلميح أدناه إلى أن الصور مدعومة من قبل نماذج Anthropic و Google و OpenAI. لا توجد فرصة لـ Qwen، أليس كذلك؟
-
Qwen3-VL-8b رسالة جديدة مربكة عندما لا يتمكن النموذج من التعرف على صورة/مستند.
في 3.6.0.beta2:

في كلتا الحالتين vision enabled = true و vision enabled = false يتعامل روبوت الذكاء الاصطناعي مع طلب التعرف على الصور بشكل صحيح، دون أي استثناء.
في v2025.12.0-latest: خيار جديد allowed attachments

الآن مع vision enabled = true في يُرجع خطأ في الحوار:
{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
- Gemma3-27b. بعض الأفكار حول التعرف على المحتوى النصي والصوري المختلط. تدعم الاستجابة النص فقط حاليًا. عندما أطلب من النموذج تقديم نص من طبقة التعرف الضوئي على الحروف (OCR) لملف PDF مع صور مفصولة، فإنه يُرجع

لا يوجد شيء في هذا الرابط، لقد أنشأ النموذج رابطاً وهمياً.
شكراً!