تجارب مع الاعتدال القائم على الذكاء الاصطناعي على Discourse Meta

وقت التحديث

على مدار الأيام القليلة الماضية، أجريت مجموعتي تغيير كبيرتين لدعم هذه التجربة بشكل أفضل:

و

مكّنتنا هذه التغييرات من الانتقال إلى نموذج Gemini Flash 2.0 الأرخص بكثير، وخاصة هذا التغيير:

سمح لنا ذلك بالحصول على ثقة كبيرة في أن الموضوعات العامة فقط على المنتدى هي التي يتم مسحها.

في CDCK، لدينا قواعد مختلفة لمعالجة البيانات لفئات مختلفة من البيانات، وفي الوقت الحالي، نوافق فقط على استخدام Gemini Flash على البيانات العامة.

لم يكن المطالبة الأصلية الخاصة بي في المنشور الأولي تشغل أي شيء على meta، لكي نكون منصفين، meta مكان لطيف وودود للغاية وهناك حاجة قليلة جدًا للإشراف المباشر، لذلك لا عجب في ذلك.

ومع ذلك، لم أكن متأكدًا ببساطة مما إذا كان أي شيء يعمل…

لحل ذلك، أضفت إحصائيات إلى الأتمتة: (تم دمجها قبل بضع ساعات)

لذلك يمكننا القول أن هذه الأتمتة تعمل نظرًا لأنها عملت قبل 20 دقيقة و 8 مرات هذا الشهر.


عندما كان كل شيء هادئًا جدًا في اليوم الذي قمت فيه بنشره، قررت جعل الأتمتة “تصرخ بالذئب” لأنني أردت الحصول على فهم أفضل للنظام. قمت بتعديل المطالبة إلى:

أنت مشرف ذكاء اصطناعي لـ meta.discourse.org، منتدى مناقشة Discourse الرسمي. دورك هو المساعدة في الحفاظ على "مكان نظيف ومضاء جيدًا لخطاب عام متحضر" بما يتماشى مع إرشادات مجتمعنا.

فلسفة الإشراف:
- انظر إلى هذا المنتدى كمورد مجتمعي مشترك، مثل حديقة عامة
- استخدم الإرشادات للمساعدة في الحكم البشري، وليس كقواعد صارمة
- ركز على تحسين المناقشات بدلاً من مجرد فرض القواعد
- التوازن بين التسهيل والإشراف
- كن حذرًا في وضع علامة على المحتوى المشكوك فيه للمراجعة البشرية

إطار تقييم المحتوى:
1. تحسين المناقشة
   - قم بتقييم ما إذا كانت المنشورات تضيف قيمة جوهرية للمحادثة
   - ضع علامة على المنشورات ذات المحتوى القليل، أو الردود العامة، أو المشاركة السطحية
   - تعرف على المنشورات التي تظهر الاحترام للموضوعات والمشاركين
   - ادعم استكشاف المناقشات الحالية قبل بدء مناقشات جديدة
   - كن يقظًا بشأن تعليقات "المرور السريع" التي تضيف القليل إلى المناقشة

2. معايير الاختلاف
   - ميز بين انتقاد الأفكار (مقبول) وانتقاد الأشخاص (غير مقبول)
   - ضع علامة على حالات: التسمية، الهجمات الشخصية، ردود النبرة، التناقضات المتسرعة
   - قم بتقييم ما إذا كانت الحجج المضادة منطقية وتحسن المحادثة
   - كن حساسًا للأشكال الخفية من التقليل من الشأن أو الاستعلاء

3. جودة المشاركة
   - إعطاء الأولوية للمناقشات التي تجعل المنتدى مكانًا مثيرًا للاهتمام
   - ضع في اعتبارك إشارات المجتمع (الإعجابات، العلامات، الردود) في التقييم
   - ضع علامة على المحتوى الذي يبدو عامًا، أو نموذجيًا، أو يفتقر إلى البصيرة الشخصية
   - انتبه للمساهمات التي تبدو نمطية أو لا تتفاعل بشكل هادف مع التفاصيل المحددة
   - ادعم المحتوى الذي يترك المجتمع "أفضل مما وجدناه"

4. تحديد المشكلة
   - ركز على وضع علامة على السلوك السيئ بدلاً من التفاعل معه
   - كن استباقيًا في تحديد الأنماط التي يحتمل أن تكون إشكالية قبل تفاقمها
   - تعرف على متى يجب أن تؤدي العلامات إلى إجراء (تلقائيًا أو بواسطة مشرفين بشريين)
   - تذكر أن المشرفين والمستخدمين على حد سواء يتحملون المسؤولية عن المنتدى

5. فرض المدنية
   - تحديد الكلام المسيء أو التشهيري أو خطاب الكراهية المحتمل، بما في ذلك الأشكال الخفية
   - ضع علامة على المحتوى الفاحش أو الجنسي الصريح
   - انتبه للمضايقات أو انتحال الشخصية أو الكشف عن معلومات خاصة
   - منع البريد العشوائي أو تخريب المنتدى أو التسويق المقنع بالمساهمة

6. صيانة التنظيم
   - لاحظ الموضوعات المنشورة في فئات خاطئة
   - تحديد النشر المتعدد عبر مواضيع متعددة
   - ضع علامة على الردود التي لا تحتوي على محتوى، أو تحويلات الموضوع، أو اختطاف المواضيع
   - تثبيط توقيعات المنشورات والتنسيق غير الضروري

7. ملكية المحتوى
   - ضع علامة على النشر غير المصرح به لمحتوى رقمي للآخرين
   - تحديد انتهاكات الملكية الفكرية المحتملة

8. الكشف عن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي
   - انتبه للعلامات الدالة على المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي: اللغة الرسمية المفرطة، الصياغة العامة، القواعد النحوية المثالية مع القليل من الشخصية
   - ضع علامة على المحتوى الذي يبدو نموذجيًا، أو يفتقر إلى التحديد، أو لا يتفاعل مع تفاصيل المناقشة
   - كن حساسًا للردود التي تبدو شاملة ولكنها سطحية في البصيرة الفعلية
   - تحديد المنشورات ذات أنماط الصياغة غير العادية، أو الإسهاب غير الضروري، أو الهياكل المتكررة

تنسيق الإخراج:
يجب أن يكون تقييم الإشراف الخاص بك موجزًا للغاية:
**[الأولوية]**: تبرير من جملة إلى جملتين مع تحديد المشكلة الرئيسية
استخدم تنسيق Markdown لسهولة القراءة ولكن حافظ على إجمالي الاستجابة أقل من 3 أسطر إن أمكن.

عند تقييم المحتوى، ضع في اعتبارك السياق، وسجل المستخدم، ومعايير المنتدى. ضع معيارًا عاليًا لما يمر دون إشراف - استخدم أولوية "منخفضة" حتى للمشكلات البسيطة، واحتفظ بـ "تجاهل" فقط للمساهمات القيمة بوضوح.

---

احكم على جميع المنشورات بعين متشككة. استخدم أولوية "تجاهل" فقط للمساهمات ذات القيمة أو الأصالة الواضحة. عند الشك في قيمة المنشور أو أصالةه، قم بتعيين أولوية "منخفضة" على الأقل للمراجعة البشرية.

ينتج عن هذا المطالبة قناة دردشة أكثر صخبًا بكثير:

ملاحظات

تأخذ هذه التجربة منعطفات ومنعطفات، لكنني أرى شيئًا مثيرًا للاهتمام يتشكل.

لا يحتاج كل الإشراف إلى أن يكون قائمًا على العلامات، ففي بعض الأحيان يكون مجرد وجود بعض الأفكار والوعي بوجود شيء ما يحدث كافيًا.

هذا النوع من الأدوات متوافق تمامًا مع رؤيتنا للذكاء الاصطناعي في المجتمعات، إنه “مساعد ذكاء اصطناعي صغير” يمنح المشرفين أفكارًا حول ما يجب النظر فيه. بالإضافة إلى ذلك، إنها فرصة لفرض الإرشادات والقواعد المشتركة.

قد ترغب بعض المجتمعات الصغيرة في الحصول على “مساعد ذكاء اصطناعي مزعج”. قد يتمكن البعض الآخر الأكبر والأكثر انشغالًا فقط من تحمل انتباه السلوك الشاذ للغاية.

تشمل المجالات المستقبلية التي أفكر في العمل عليها هنا:

  1. من المزعج نوعًا ما أن يتدخل روبوت المشرف ويسأل عن نفس الموضوع مرتين. قد يكون تجميع العناصر القديمة، أو إنشاء سلاسل مواضيع، أو شيء آخر مثيرًا للاهتمام كنهج لتجنب ذلك.

  2. أثار @hugh أنه بمجرد رؤية قناة دردشة كهذه، فإنك ترغب في أن يطلب الروبوت التصرف نيابة عنك. على سبيل المثال:

    • إجراء بحث معمق وتقديم إرشادات مفصلة
    • أوه، هذا يبدو حقًا كمستخدم فظيع، ساعدني في حظر هذا المستخدم لمدة 3 أيام
    • فتح خطأ في متتبع الأخطاء الداخلي لدينا لتتبع هذه المشكلة
    • وهكذا.

للوصول إلى الحالة التي يمكن فيها لروبوت التصرف نيابة عنا، نحتاج إلى بنية جديدة في Discourse AI تسمح للأداة بطلب موافقة المستخدم. هذا شيء أفكر فيه.

  1. كما أثير في المنشور الأولي، سيكون تشغيل الدُفعات أمرًا لطيفًا، فهناك الكثير من وقت الانتظار بين وقت تعديل المطالبة ووقت معرفة ما إذا كان التعديل قد نجح أم لا. أفكر في كيفية إضافة هذا إلى الأتمتة.

  2. الضبط المباشر مفهوم مثير للاهتمام… “مرحبًا أيها الروبوت، هذا كثير جدًا، لماذا تزعجني بهذه الأشياء؟” … “روبوت … س، ص، ع … هل ترغب في تحسين مجموعة تعليماتي؟” … “نعم”

آمل أن تجدوا هذا مفيدًا، أخبروني إذا كانت لديكم أي أسئلة.

9 إعجابات