لقد قدمنا ميزة التعليق التوضيحي للصور بالذكاء الاصطناعي في إضافة Discourse AI، مما يتيح إنشاء تعليقات تلقائية للصور في المنشورات. تهدف هذه الوظيفة إلى تحسين إمكانية الوصول إلى المحتوى وإثراء العناصر المرئية داخل مجتمعك.
الميزات والاستخدام
تعليقات تلقائية بالذكاء الاصطناعي: عند تحميل صورة في المحرر، يمكنك إنشاء تعليق تلقائي باستخدام الذكاء الاصطناعي.
تعليقات قابلة للتحرير: يمكن تعديل التعليق الذي تم إنشاؤه ليتناسب بشكل أفضل مع سياق ونبرة المحتوى الخاص بك.
إمكانية وصول محسنة: تدعم الميزة إنشاء محتوى أكثر سهولة للمستخدمين الذين يعتمدون على قارئات الشاشة.
كيفية الاستخدام
قم بتحميل صورة في محرر Discourse.
انقر فوق الزر “Caption with AI” بالقرب من الصورة.
سيظهر تعليق تم إنشاؤه، والذي يمكنك تعديله.
اقبل التعليق لتضمينه في منشورك.
ملاحظات
تعد ملاحظاتك ضرورية لتحسين هذه الميزة. تم تمكينها هنا على Meta، لذا يرجى مشاركة تجاربك أو مشكلاتك أو اقتراحاتك هنا في هذا الموضوع.
نموذج الذكاء الاصطناعي
تدعم هذه الميزة كلاً من نموذج LLaVa 1.6 مفتوح المصدر أو واجهة برمجة تطبيقات OpenAI.
يمكنه رؤية القميص الكاروهات، لكنه لا يستطيع اكتشاف جورج كوستانزا.
بعيدًا عن المزاح، هذا رائع خاصةً لـ #إمكانية_الوصول. في تقارير إمكانية الوصول السابقة، كان النص البديل المفقود على الصور أحد العناصر الرئيسية التي تم طرحها، وفي السابق كنا نتجاهل كل ذلك نظرًا لأن الصور هي محتوى يقوم المستخدم بتحميله. هذا الآن يرسم مسارًا نحو إمكانية وصول أفضل بكثير.
لكن من الصعب جدًا العثور عليها. يحتاج المستخدم إلى تمرير مؤشر الماوس فوق الصورة لرؤية الزر ثم النقر عليه (ولن يعرف معظم الناس بذلك).
على الرغم من أنني كنت أعرف وأبحث عن الميزة، كان عليّ التحقق من الفيديو لمعرفة أنني بحاجة إلى التمرير.
في رأيي، يجب أن تكون “أمام عينيك” ليتم استخدامها في البداية. حتى أنني سأجعلها تنشئ التسميات تلقائيًا، دون أن يضطر المستخدم إلى النقر على أي شيء
هل سيرسل رابط الصورة (الإنترنت) إلى خدمة الذكاء الاصطناعي أم سيقوم بتحميل محتوى الصورة أم سيقوم بتشغيل بعض “التجزئة” محليًا في discourse؟ هل هو من جانب الخادم أم جافاسكريبت (أي يعرض عنوان IP الخاص بالعميل لخدمة خارجية).
أتفق، ولكن قد تعاني الجودة من قيود الأجهزة. ربما يمكنك مشاركة بعض التوصيات فيما يتعلق بأحجام النماذج والتقدير الكمي أو الحد الأدنى من ذاكرة الفيديو (VRAM) من خبرتك. (لست متأكدًا مما إذا كانت لديهم نماذج مقدرة كميًا على الإطلاق، ويبدو أن “حديقتهم” تحتوي فقط على نماذج كاملة).
نحن نشغل النموذج الكامل، ولكن بأصغر إصدار منه مع Mistral 7B. يستغرق 21 جيجابايت من ذاكرة الوصول العشوائي للفيديو (VRAM) في خوادمنا الفردية A100، ويتم تشغيله عبر صورة حاوية ghcr.io/xfalcox/llava:latest.
للأسف، النظام البيئي للنماذج متعددة الوسائط ليس ناضجًا مثل نماذج النص إلى نص (text2text)، لذلك لا يمكننا بعد الاستفادة من خوادم الاستدلال مثل vLLM أو TGI ونبقى مع تلك الخدمات المصغرة لمرة واحدة. قد يتغير هذا هذا العام، فالنماذج متعددة الوسائط موجودة على خارطة طريق vLLM، ولكن حتى ذلك الحين يمكننا على الأقل اختبار الأجواء بهذه الخدمات.
لدي بعض الملاحظات الصغيرة حول تجربة المستخدم (UX) بخصوص هذا. في الصور الصغيرة، يقوم زر “التقاط بالذكاء الاصطناعي” بحجب الصورة نفسها والنص الآخر في المنشور، مما يجعل مراجعة المنشور عند التحرير صعبة.
أرى أن جميع التسميات التوضيحية التي تم إنشاؤها (هنا وعلى موقعي) تبدأ بـ “تحتوي الصورة على” أو “صورة لـ” أو ما شابه ذلك. يبدو هذا غير ضروري ومكرر. هل يمكن تحديث الموجه لإخباره بأنه لا يحتاج إلى شرح أن الصورة هي صورة؟
من الصعب جدًا تحسين ذلك لأن النماذج المختلفة لها قدرات تحمل مختلفة، ولكن إحدى الخطط التي لدينا هي السماح لمالكي المجتمعات بالتحكم في الموجهات حتى يتمكنوا من التجربة.
@mattdm يمكنك تحقيق ذلك ببساطة عن طريق البذر المسبق للإجابة التي تم إنشاؤها بـ “صورة لـ”. بهذه الطريقة يعتقد النموذج اللغوي الكبير أنه قد قام بالفعل بإنشاء المقدمة وسيقوم بإنشاء الباقي فقط.