ميزة شرح الصور بواسطة الذكاء الاصطناعي في إضافة Discourse AI

لقد قدمنا ميزة التعليق التوضيحي للصور بالذكاء الاصطناعي في إضافة Discourse AI، مما يتيح إنشاء تعليقات تلقائية للصور في المنشورات. تهدف هذه الوظيفة إلى تحسين إمكانية الوصول إلى المحتوى وإثراء العناصر المرئية داخل مجتمعك.

الميزات والاستخدام

  • تعليقات تلقائية بالذكاء الاصطناعي: عند تحميل صورة في المحرر، يمكنك إنشاء تعليق تلقائي باستخدام الذكاء الاصطناعي.
  • تعليقات قابلة للتحرير: يمكن تعديل التعليق الذي تم إنشاؤه ليتناسب بشكل أفضل مع سياق ونبرة المحتوى الخاص بك.
  • إمكانية وصول محسنة: تدعم الميزة إنشاء محتوى أكثر سهولة للمستخدمين الذين يعتمدون على قارئات الشاشة.

كيفية الاستخدام

  1. قم بتحميل صورة في محرر Discourse.
  2. انقر فوق الزر “Caption with AI” بالقرب من الصورة.
  3. سيظهر تعليق تم إنشاؤه، والذي يمكنك تعديله.
  4. اقبل التعليق لتضمينه في منشورك.

ملاحظات

تعد ملاحظاتك ضرورية لتحسين هذه الميزة. تم تمكينها هنا على Meta، لذا يرجى مشاركة تجاربك أو مشكلاتك أو اقتراحاتك هنا في هذا الموضوع.

نموذج الذكاء الاصطناعي

تدعم هذه الميزة كلاً من نموذج LLaVa 1.6 مفتوح المصدر أو واجهة برمجة تطبيقات OpenAI.

28 إعجابًا

من المضحك أنني استخدمته في وقت سابق في هذا المنشور. لقد أُعجبت به كثيرًا. لقد تمكن من قراءة الصورة وإخبار ما يدور حوله هذا المنشور

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

6 إعجابات

تم تدوين هذا في منتدى OpenAI

5 إعجابات

لا أعرف كيف نجعل مستخدمي الهاتف المحمول يتذكرون استخدامه، لأنهم يضطرون إلى الابتعاد عن المحرر.

هل يُستخدم هذا الشرح النصي كـ “نص بديل” أيضًا؟

4 إعجابات

نعم.

نخطط لإضافة تذكيرات في الوقت المناسب (JIT) في المستقبل القريب إذا كان الاستقبال جيدًا.

7 إعجابات

تم تقسيم منشورين إلى موضوع جديد: دعم تخصيص المطالبات في DiscourseAI

يمكنه رؤية القميص الكاروهات، لكنه لا يستطيع اكتشاف جورج كوستانزا. :rofl:

بعيدًا عن المزاح، هذا رائع خاصةً لـ #إمكانية_الوصول. في تقارير إمكانية الوصول السابقة، كان النص البديل المفقود على الصور أحد العناصر الرئيسية التي تم طرحها، وفي السابق كنا نتجاهل كل ذلك نظرًا لأن الصور هي محتوى يقوم المستخدم بتحميله. هذا الآن يرسم مسارًا نحو إمكانية وصول أفضل بكثير.

13 إعجابًا

في حالة رسائل الخطأ، هل هناك أي طريقة لتشجيعها على تسمية الجزء الرئيسي من الخطأ حتى يلتقطه محرك البحث؟

بعض النتائج الأخرى

إنه يحدد الثالث بشكل صحيح كأداة IBM EWM، ولكنه لا يتعرف على 2 كـ Rhapsody، و 1 كـ Vector Davinci. ومع ذلك، فإن هذه التسميات معقولة جدًا.

5 إعجابات

هذه ميزة رائعة!

لكن من الصعب جدًا العثور عليها. يحتاج المستخدم إلى تمرير مؤشر الماوس فوق الصورة لرؤية الزر ثم النقر عليه (ولن يعرف معظم الناس بذلك).
على الرغم من أنني كنت أعرف وأبحث عن الميزة، كان عليّ التحقق من الفيديو لمعرفة أنني بحاجة إلى التمرير.
في رأيي، يجب أن تكون “أمام عينيك” ليتم استخدامها في البداية. حتى أنني سأجعلها تنشئ التسميات تلقائيًا، دون أن يضطر المستخدم إلى النقر على أي شيء :drevil:

7 إعجابات

سنقوم في النهاية بجعل هذه المطالبات قابلة للتخصيص، لذلك سيكون هذا ممكنًا.

كميزة جديدة، فكرتنا هي تقديمها بطريقة غير مزعجة للغاية لجمع التعليقات، ثم تسهيل العثور عليها وحتى جعلها تلقائية.

10 إعجابات

تم تقسيم 6 مشاركات إلى موضوع جديد: مشاكل في تكوين تسميات صور الذكاء الاصطناعي

هل سيرسل رابط الصورة (الإنترنت) إلى خدمة الذكاء الاصطناعي أم سيقوم بتحميل محتوى الصورة أم سيقوم بتشغيل بعض “التجزئة” محليًا في discourse؟ هل هو من جانب الخادم أم جافاسكريبت (أي يعرض عنوان IP الخاص بالعميل لخدمة خارجية).

3 إعجابات

يرسل رابطًا إلى الصورة إلى الخدمة التي اخترتها للتعليق. يحدث هذا من جانب الخادم، حيث توجد بيانات اعتماد متضمنة.

إذا كنت تريد الميزة ولكنك لا تريد إشراك أطراف ثالثة، يمكنك دائمًا تشغيل LLaVa على الخادم الخاص بك.

3 إعجابات

أتفق، ولكن قد تعاني الجودة من قيود الأجهزة. ربما يمكنك مشاركة بعض التوصيات فيما يتعلق بأحجام النماذج والتقدير الكمي أو الحد الأدنى من ذاكرة الفيديو (VRAM) من خبرتك. (لست متأكدًا مما إذا كانت لديهم نماذج مقدرة كميًا على الإطلاق، ويبدو أن “حديقتهم” تحتوي فقط على نماذج كاملة).

إعجابَين (2)

نحن نشغل النموذج الكامل، ولكن بأصغر إصدار منه مع Mistral 7B. يستغرق 21 جيجابايت من ذاكرة الوصول العشوائي للفيديو (VRAM) في خوادمنا الفردية A100، ويتم تشغيله عبر صورة حاوية ghcr.io/xfalcox/llava:latest.

للأسف، النظام البيئي للنماذج متعددة الوسائط ليس ناضجًا مثل نماذج النص إلى نص (text2text)، لذلك لا يمكننا بعد الاستفادة من خوادم الاستدلال مثل vLLM أو TGI ونبقى مع تلك الخدمات المصغرة لمرة واحدة. قد يتغير هذا هذا العام، فالنماذج متعددة الوسائط موجودة على خارطة طريق vLLM، ولكن حتى ذلك الحين يمكننا على الأقل اختبار الأجواء بهذه الخدمات.

5 إعجابات

لدي بعض الملاحظات الصغيرة حول تجربة المستخدم (UX) بخصوص هذا. في الصور الصغيرة، يقوم زر “التقاط بالذكاء الاصطناعي” بحجب الصورة نفسها والنص الآخر في المنشور، مما يجعل مراجعة المنشور عند التحرير صعبة.

3 إعجابات
4 إعجابات

أرى أن جميع التسميات التوضيحية التي تم إنشاؤها (هنا وعلى موقعي) تبدأ بـ “تحتوي الصورة على” أو “صورة لـ” أو ما شابه ذلك. يبدو هذا غير ضروري ومكرر. هل يمكن تحديث الموجه لإخباره بأنه لا يحتاج إلى شرح أن الصورة هي صورة؟

3 إعجابات

من الصعب جدًا تحسين ذلك لأن النماذج المختلفة لها قدرات تحمل مختلفة، ولكن إحدى الخطط التي لدينا هي السماح لمالكي المجتمعات بالتحكم في الموجهات حتى يتمكنوا من التجربة.

5 إعجابات

@mattdm يمكنك تحقيق ذلك ببساطة عن طريق البذر المسبق للإجابة التي تم إنشاؤها بـ “صورة لـ”. بهذه الطريقة يعتقد النموذج اللغوي الكبير أنه قد قام بالفعل بإنشاء المقدمة وسيقوم بإنشاء الباقي فقط.

إعجابَين (2)