المنتديات التي تحظر المحتوى المدعوم بالذكاء الاصطناعي... كيف تسير الأمور؟

أود أن أسمع تجارب العاملين في المنتديات التي لا تسمح بمحتوى مُنتَج بواسطة الذكاء الاصطناعي/النماذج اللغوية الكبيرة (LLM). كيف تمكّنتوا من إيصال هذا الأمر للمستخدمين؟ وكيف تكتشفون هذا المحتوى؟ وما هي الطريقة التي تتبعونها عند التعامل مع المستخدمين الذين ينشرونه رغم ذلك؟

كل الآراء محل ترحيب.

ملاحظة: شخصياً، أنا مهتم فقط بالجانب البشري فيما يتعلق بالتفاعلات الأمامية (واجهة المستخدم) على الموقع. فأنا أفترض أن منع زحف محركات البحث (Crawlers) أمرٌ شاقّ بلا جدوى.

منتدانا مخصص للمناقشات الروحية والدينية. ونحظر أيّ محتوى مُنتَج بواسطة الذكاء الاصطناعي.

6 إعجابات

يمكن اكتشاف معظم النصوص التي تنتجها الذكاء الاصطناعي، إن لم يكن جميعها، بسهولة بمجرد قراءتها. تُعد تقنية SynthID من جوجل تقنية رائعة للكشف عن الصور التي أنشأتها الذكاء الاصطناعي، وتدعي أنها قادرة حتى على اكتشاف النصوص المكتوبة على الأرجح بواسطة Gemini فقط، كما أن OpenAI تدعم المعيار نفسه. ربما يكون القدرة على اكتشاف النصوص شخصياً مهارة تُكتسب مع الوقت، لكنني أقدر العمل الجاري للتعامل مع الأزمة الحالية المتمثلة في عدم القدرة على كشف صور أو نصوص الذكاء الاصطناعي.

أعتقد أن كتم الصوت/حظر الحسابات لا يزال هو الطريق الصحيح للتعامل مع هذه القضية، خاصة إذا كان الحساب جديداً. إذا انضم حساب جديد عشوائي إلى موقعك ونشر فوراً موضوعاً مولده الذكاء الاصطناعي، فلا أرى سبباً يمنعك من حظر الحساب ومنعه تماماً.

أما بالنسبة لمعضلة النقر (scraping) الشاملة: موقعي مخصص حالياً للاتصال الداخلي والتوثيق داخل شركة صغيرة، وأخطط لاستخدامه كواجهة خلفية (backend) للكتابة المدونة في النهاية. لم يكن من الصعب إعداد فخ للروبوتات (honeypot) لردع المتصفحات التي تختار تجاهل ملفات robotstxt على نطاقات موقعي.

أدت هذه التكتيكات وحدها إلى ما يقارب 6 ملايين طلب خلال أسبوعين (حوالي 6 طلبات/ثانية للنطاق):

عندما يزور روبوت الذكاء الاصطناعي هذا الموقع، يتم توجيهه إلى متاهة لا نهاية لها من الرسائل المزعجة باستخدام مشروع iocaine المستضاف ذاتياً، والذي يحتوي على مجموعة بيانات من حوالي 7000 كلمة مفبركة، وبعض أكواد HTML غير المفهومة، وكلمات عشوائية، وأخبار مزيفة من صنع نموذج Llama 8B.

من الواضح أن هذا تكتيك “اذهب بعيداً” نووي وليس مناسباً للجميع، لكنه كان مفيداً جداً لي في هدفي المتمثل في منع نماذج اللغات الكبيرة (LLMs) من سرقة أكوادي أو محتوى نصوصي. أتذكر قراءة دراسة حالة أجرتها Anthropic حول تسميم نماذج اللغات الكبيرة، لكنني لم أعد أجد المقال، لذا لن أرفقه هنا، لكن بالتأكيد في مرحلة ما سيحتاجون إلى حظر نطاقي عندما يدركون أن الروبوت أرسل حوالي 5 ملايين طلب إلى نطاقي مؤخراً.

4 إعجابات

(ألاحظ أننا نترك جانباً مسألة عبء زحف محركات البحث (crawlers)، وأخذ المحتوى للتدريب، والعواقب الاجتماعية والاقتصادية للتطورات السريعة الحالية. هذا أمر جيد.)

بالنسبة لي، في موقع هواي منخفض الحركة:

  • نحاول الاتفاق على صياغة سياسة مكتوبة.
  • نتعامل مع الأمور عند ظهورها.
  • الحالات الأكثر إثارة للجدل تُعتبر بشكل أساسي إزعاجاً (spam)، لذا نقوم بحذفها ومنع المستخدمين.
  • وإلا، نقوم بالاعتراض، ربما بشكل علني وربما بشكل خاص، وقد نقوم بحذف المنشورات.

قد تبدو صيغة مقترحة للتوجيه على النحو التالي:

  • “امتلاك” محتوى الرسائل التي تنشرها (أي قراءة وفهم المحتوى وعدم نسخ ولصق المحتوى بشكل أعمى، بغض النظر عن مصدره).
  • محاولة الإجابة على أسئلتك بنفسك بأفضل ما يمكن أولاً (على سبيل المثال، من خلال البحث في المنتدى) قبل بدء مواضيع جديدة.
  • تقديم تفاصيل محددة بطريقة موجزة حتى يتمكن المستخدمون الآخرون من القراءة والفهم لمساعدتك، أي تجنب الجدران الطويلة من النصوص المتكررة أو غير ذات الصلة، أو العبارات العامة جداً دون معلومات كافية.
  • الحفاظ على النقاش ضمن الموضوع، وتجنب المناقشات الجانبية (خاصة حول استخدام الذكاء الاصطناعي - سواء كان ذلك “أفضل الممارسات” أو “أخلاقياته”).
  • الحفاظ على احترام المحادثات وتذكر أن لدينا مستخدمين بخلفيات وآراء مختلفة.
  • استمتع! هذا من المفترض أن يكون هواية.

(في بيئتنا الهواوية، هناك زاوية إضافية، وهي استخدام نماذج اللغة الكبيرة (LLMs) ضمن الهواية، والتي تغطي طيفاً من الاحتمالات ولها كل من المؤيدين والمعارضين.)

3 إعجابات