منتديات تحظر محتوى الذكاء الاصطناعي... كيف تسير الأمور؟

أود حقًا سماع تجارب موظفي المنتديات التي لا تسمح بمحتوى مُولَّد بواسطة الذكاء الاصطناعي أو النماذج اللغوية الكبيرة (LLM). كيف تمكّتم من إيصال هذه الرسالة للمستخدمين؟ وكيف تكتشفون هذا النوع من المحتوى؟ وما هي منهجيتكم في التعامل مع المستخدمين الذين ينشرونه رغم ذلك؟

كل الآراء والأفكار موضع ترحيب.

إعجاب واحد (1)

يمكن اكتشاف معظم النصوص التي تنتجها الذكاء الاصطناعي، إن لم يكن جميعها، بسهولة بمجرد قراءتها. تُعد تقنية SynthID من جوجل تقنية رائعة للكشف عن الصور التي أنشأتها الذكاء الاصطناعي، وتدعي أنها قادرة حتى على اكتشاف النصوص المكتوبة على الأرجح بواسطة Gemini فقط، كما أن OpenAI تدعم المعيار نفسه. ربما يكون القدرة على اكتشاف النصوص شخصياً مهارة تُكتسب مع الوقت، لكنني أقدر العمل الجاري للتعامل مع الأزمة الحالية المتمثلة في عدم القدرة على كشف صور أو نصوص الذكاء الاصطناعي.

أعتقد أن كتم الصوت/حظر الحسابات لا يزال هو الطريق الصحيح للتعامل مع هذه القضية، خاصة إذا كان الحساب جديداً. إذا انضم حساب جديد عشوائي إلى موقعك ونشر فوراً موضوعاً مولده الذكاء الاصطناعي، فلا أرى سبباً يمنعك من حظر الحساب ومنعه تماماً.

أما بالنسبة لمعضلة النقر (scraping) الشاملة: موقعي مخصص حالياً للاتصال الداخلي والتوثيق داخل شركة صغيرة، وأخطط لاستخدامه كواجهة خلفية (backend) للكتابة المدونة في النهاية. لم يكن من الصعب إعداد فخ للروبوتات (honeypot) لردع المتصفحات التي تختار تجاهل ملفات robotstxt على نطاقات موقعي.

أدت هذه التكتيكات وحدها إلى ما يقارب 6 ملايين طلب خلال أسبوعين (حوالي 6 طلبات/ثانية للنطاق):

عندما يزور روبوت الذكاء الاصطناعي هذا الموقع، يتم توجيهه إلى متاهة لا نهاية لها من الرسائل المزعجة باستخدام مشروع iocaine المستضاف ذاتياً، والذي يحتوي على مجموعة بيانات من حوالي 7000 كلمة مفبركة، وبعض أكواد HTML غير المفهومة، وكلمات عشوائية، وأخبار مزيفة من صنع نموذج Llama 8B.

من الواضح أن هذا تكتيك “اذهب بعيداً” نووي وليس مناسباً للجميع، لكنه كان مفيداً جداً لي في هدفي المتمثل في منع نماذج اللغات الكبيرة (LLMs) من سرقة أكوادي أو محتوى نصوصي. أتذكر قراءة دراسة حالة أجرتها Anthropic حول تسميم نماذج اللغات الكبيرة، لكنني لم أعد أجد المقال، لذا لن أرفقه هنا، لكن بالتأكيد في مرحلة ما سيحتاجون إلى حظر نطاقي عندما يدركون أن الروبوت أرسل حوالي 5 ملايين طلب إلى نطاقي مؤخراً.

إعجابَين (2)