استخدمت OpenAI العديد من مجموعات البيانات لتدريب نماذجها. يبدو أن مجموعة البيانات الأكثر احتمالاً التي تتضمن محتوى Discourse هي نسخة مفلترة من مجموعة بيانات Common Crawl. راجع القسم 2.2 من هذه الوثيقة للتفاصيل: https://arxiv.org/pdf/2005.14165.pdf. تستخدم Common Crawl سلسلة وكيل المستخدم CCBot/2.0 عند زحف موقع ما.
إذا كنت ترغب في إبقاء موقع Discourse الخاص بك متاحًا للجمهور، ولكن منع إضافة محتواه إلى مجموعة بيانات Common Crawl في المستقبل، يمكنك إضافة CCBot إلى إعداد وكلاء المستخدم الزاحف المحظورين لموقع Discourse الخاص بك. لاحظ أنه قد يكون هناك جانب سلبي لحظر وكيل المستخدم Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):
يمكن استخدام العديد من مجموعات البيانات، بما في ذلك Common Crawl، من قبل الشركات التي تقوم بتصفية وتصنيف عناوين URL لإنشاء قوائم بالمواقع المستهدفة بالإعلانات.
استخدام Discourse لإعداد وكلاء المستخدم الزاحف المحظورين موجود هنا: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.
لاحظ أن Common Crawl يحترم القواعد الموجودة في ملف robots.txt، لذلك يمكن حظره أيضًا عن طريق إضافة القاعدة التالية إلى الملف:
User-agent: CCBot
Disallow: /
تستخدم إضافات ChatGPT وكيل المستخدم ChatGPT-User عند إجراء طلبات نيابة عن المستخدمين. لا يتم استخدام وكيل المستخدم هذا لزحف الويب لإنشاء مجموعات بيانات تدريب: https://platform.openai.com/docs/plugins/bot. يمكن أيضًا حظر وكيل المستخدم هذا عن طريق إضافته إلى إعداد وكلاء المستخدم الزاحف المحظورين (أو عن طريق إضافة قاعدة Disallow إلى ملف robots.txt).
كما أشار آخرون، فإن الطريقة الأكثر موثوقية لمنع استخدام موقعك لتدريب نماذج اللغة الكبيرة (LLMs) هي منع الوصول المجهول إلى الموقع عن طريق تمكين إعداد الموقع تسجيل الدخول مطلوب. لزيادة تأمين الموقع، يمكن اتخاذ خطوات لزيادة احتمالية أن يكون المستخدمون على موقعك بشراً، وليسوا روبوتات. قد يكون النهج الممكن لذلك هو دمج خدمة مثل Gitcoin Passport مع نظام المصادقة الخاص بالموقع. أعتقد أنه سيتم قريبًا تطوير إضافة Gitcoin Passport لـ Discourse مفتوحة المصدر.
قد تكون هناك طرق أخرى أقل تقنية لزيادة احتمالية أن يكون المستخدمون على الموقع بشراً. على سبيل المثال، يمكن تعيين الموقع على دعوة فقط ويمكن اتخاذ خطوات للتأكد من أنك تدعو فقط المستخدمين الذين لديك سبب للاعتقاد بأنهم بشر إلى الموقع.
أجد الفلسفة وراء كل هذا مثيرة للاهتمام للغاية، لكنني لن أخوض فيها في هذا الموضوع.