كيفية منع استخدام محتوى المجتمع في تدريب نماذج اللغات الكبيرة مثل ChatGPT

هل هناك اتفاق على أن إنشاء فئة، وبشكل أساسي، جعلها خاصة هو طريقة مؤكدة لمنع ليس فقط جميع الروبوتات ولكن أيضًا نماذج اللغة الكبيرة أو دعنا نسميها روبوتات الذكاء الاصطناعي؟

بصراحة، من خلال التعامل مع المشكلة في موضوع واحد على الأقل والبحث في محرك بحث ChatGPT مثل العديد من البرامج الأخرى المتاحة، لا يتم التعامل مع التهديدات والجوانب التدميرية لـ ChatGPT بجدية في رأيي المتواضع، هناك حاجة إلى تفكير جاد بشأن تقديم الدعم والميزات لأصحاب المواقع والمسؤولين الذين لا يرغبون في استخدام أي ذكاء اصطناعي.

ChatGPT وكل ما يرمز إليه هو أحد تلك المواقف التي تم فيها إشعال الفتيل، من كلا الطرفين. :melting_face:

إعجاب واحد (1)

نعم، هذه طريقة مؤكدة جدًا.
سيظل بإمكان الجهات الفاعلة الشريرة تمامًا التسجيل بالطبع، ولكن يجب أن يزيل ذلك جميع الزواحف الشرعية.

ملاحظة: لقد حذفت تعليقك الذي قمت فيه بالإشارة إلى عدد قليل من المؤسسين المشاركين، ويبدو أن هذا مفرط.

6 إعجابات

الوقت يخبرنا أنه ليس مفرطًا. يجب أن تستيقظ العقول. أرى تحيزًا يولد نقطة عمياء كبيرة، وهذا ملاحظ على مستوى الصناعة بأكملها أيضًا، ولكن على حد علمي، لا يبدو أن Discourse مختلف.

إذا كان الخيار الوحيد هو جعل منتدىك بأكمله خاصًا مرة أخرى، فإن “السوق” لم يتغير في اتجاه واحد فقط، بل تغير بطرق عديدة وأساسية لدرجة أنه يحتاج إلى الاعتراف به على مستوى تشغيلي ما.

ما هو المفرط هو ChatGPT وتأثيراته، والجشع لا يصف نصف ما يحدث، في كل مكان.

هذا يقوض بشكل أساسي كل منتدى وكل محتوى أنشأه الإنسان. قد تكون مرتاحًا الآن في اللعب باللطائف والتساؤلات الفلسفية، لكن هذا الوقت قد مضى. الشيء أصبح في البرية الآن. يجب على الجميع ممن لديهم قدم في مياه شبكة الويب العالمية اتخاذ القرارات.

ما قلته مبالغ فيه (وما حذفته) هو تنبيه اثنين من المؤسسين/المديرين التنفيذيين للمتابعة بعد 17 ساعة فقط من طرح سؤال تقني بحت.

مخاوفك بشأن نماذج اللغة الكبيرة حقيقية ومفهومة حتى لو كنت أختلف معها.

7 إعجابات

أتفهم ذلك، لكنك فشلت في فهم مدى إلحاح الأمر، وأن إجابة سؤال تقني لها عواقب ونتائج عميقة جدًا ليست تقنية بأي حال من الأحوال من الناحية البشرية.

الكثير من التداعيات ومع ذلك الجميع يسيرون نيامًا، مما يدل على قلة الاهتمام على جميع المستويات.

شكرًا على هذه الإجابة.

هل كل ما لدينا هو مطرقة لكسر جوزة أو أن الجوزة هي في الواقع جوزة لا نهائية نقطة الصفر ومطرقتنا هي في الواقع مجرد وهم من خيال الريش.

هل هذا منطقي؟ :wink:

أعتقد أنك تفهم.

إذا كان موقعك يسمح للمستخدمين المجهولين بقراءة المعلومات، فلن يكون لديك أي سيطرة على من يحصل على تلك المعلومات أو ما سيفعلونه بها. فهمي هو أن جوجل قد غيرت سياستها للتو لتقول إن أي شيء يمكنهم قراءته، يمكنهم استخدامه لذكائهم الاصطناعي.

إذا كان موقعك يسمح للمستخدمين المسجلين بقراءة موقعك، فلن يكون لديك أي سيطرة على ما سيفعله هؤلاء المستخدمون به.

إذا كان موقعك يسمح للمستخدمين بتسجيل الدخول، فأنت لا تعرف بالضرورة أن الشخص الذي يستخدم بيانات الاعتماد هو الشخص الذي أنشأ الحساب. إذا كنت تريد التأكد من عدم تمكن أي شخص من استخدام بياناتك في ذكاء اصطناعي، فيمكنك ببساطة فصل اتصال الشبكة الخاص به.

6 إعجابات

هناك سيطرة صغيرة عند استخدام وكيل عكسي - حتى يغيروا أو يستخدموا وكيل مستخدم خاطئ (أو يستخدمون عناوين IP شائعة، ولكن هذه الطريقة صعبة ومليئة بالصعاب).

أخبرني إذا تمكنت من تطوير كتاب سحري يمكن للعين البشرية رؤيته ولكن لا يمكن لأي كاميرا على وجه الأرض تصويره

فضولي جداً بشأن هذه التقنية السحرية

بالنسبة للمنتدى الذي تستضيفه على منصة Discourse، منتداك / قواعدك. يمكن فرض بعض القواعد تلقائيًا ولا يمكن فرض البعض الآخر (على سبيل المثال، قد لا يُسمح للأشخاص ذوي العيون الزرقاء بقراءة هذا المنتدى)

7 إعجابات

لا أحد يأخذ هذا على محمل الجد حقًا لأنني أعتقد أن لا أحد يريد الاعتراف وفهم الحجم الحقيقي لهذا الحدث، ثم الاضطرار إلى محاولة فعل شيء حيال ذلك ضمن نطاق سيطرتهم، ومن الأسهل الانضمام إلى سباق النهاية، ودمج الذكاء الاصطناعي في برامجهم، معتقدين أنهم يؤدون كما يتوقع السوق وأنهم على أحدث طراز، وأنهم حيويون. هذا هو المكان الذي سمحت فيه عقود العقود الأخيرة من النسبية الأخلاقية المفرطة بحرية في كل مستوى بإحداث الفوضى العظيمة للأشياء وتجعل التكنولوجيا تحدث بسرعة البرق، لأن الأمر يبدو وكأن؛

الجميع نسوا سبب وجودهم هنا.

سأبطئ هذا قليلاً.

نحن نسمع مخاوفكم، لكننا لا نشارككم إياها وهذا أمر جيد. يمكننا الاتفاق على الاختلاف. نحن نتخذ قرارات مستنيرة. لا أحد يجبركم على ذلك. :slight_smile:

8 إعجابات

@satonotdead بالضبط

استخدمت OpenAI العديد من مجموعات البيانات لتدريب نماذجها. يبدو أن مجموعة البيانات الأكثر احتمالاً التي تتضمن محتوى Discourse هي نسخة مفلترة من مجموعة بيانات Common Crawl. راجع القسم 2.2 من هذه الوثيقة للتفاصيل: https://arxiv.org/pdf/2005.14165.pdf. تستخدم Common Crawl سلسلة وكيل المستخدم CCBot/2.0 عند زحف موقع ما.

إذا كنت ترغب في إبقاء موقع Discourse الخاص بك متاحًا للجمهور، ولكن منع إضافة محتواه إلى مجموعة بيانات Common Crawl في المستقبل، يمكنك إضافة CCBot إلى إعداد وكلاء المستخدم الزاحف المحظورين لموقع Discourse الخاص بك. لاحظ أنه قد يكون هناك جانب سلبي لحظر وكيل المستخدم Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):

يمكن استخدام العديد من مجموعات البيانات، بما في ذلك Common Crawl، من قبل الشركات التي تقوم بتصفية وتصنيف عناوين URL لإنشاء قوائم بالمواقع المستهدفة بالإعلانات.

استخدام Discourse لإعداد وكلاء المستخدم الزاحف المحظورين موجود هنا: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

لاحظ أن Common Crawl يحترم القواعد الموجودة في ملف robots.txt، لذلك يمكن حظره أيضًا عن طريق إضافة القاعدة التالية إلى الملف:

User-agent: CCBot
Disallow: /

تستخدم إضافات ChatGPT وكيل المستخدم ChatGPT-User عند إجراء طلبات نيابة عن المستخدمين. لا يتم استخدام وكيل المستخدم هذا لزحف الويب لإنشاء مجموعات بيانات تدريب: https://platform.openai.com/docs/plugins/bot. يمكن أيضًا حظر وكيل المستخدم هذا عن طريق إضافته إلى إعداد وكلاء المستخدم الزاحف المحظورين (أو عن طريق إضافة قاعدة Disallow إلى ملف robots.txt).

كما أشار آخرون، فإن الطريقة الأكثر موثوقية لمنع استخدام موقعك لتدريب نماذج اللغة الكبيرة (LLMs) هي منع الوصول المجهول إلى الموقع عن طريق تمكين إعداد الموقع تسجيل الدخول مطلوب. لزيادة تأمين الموقع، يمكن اتخاذ خطوات لزيادة احتمالية أن يكون المستخدمون على موقعك بشراً، وليسوا روبوتات. قد يكون النهج الممكن لذلك هو دمج خدمة مثل Gitcoin Passport مع نظام المصادقة الخاص بالموقع. أعتقد أنه سيتم قريبًا تطوير إضافة Gitcoin Passport لـ Discourse مفتوحة المصدر.

قد تكون هناك طرق أخرى أقل تقنية لزيادة احتمالية أن يكون المستخدمون على الموقع بشراً. على سبيل المثال، يمكن تعيين الموقع على دعوة فقط ويمكن اتخاذ خطوات للتأكد من أنك تدعو فقط المستخدمين الذين لديك سبب للاعتقاد بأنهم بشر إلى الموقع.

أجد الفلسفة وراء كل هذا مثيرة للاهتمام للغاية، لكنني لن أخوض فيها في هذا الموضوع.

15 إعجابًا

أنا أعترض بشدة على الاستمرار في الإشراف على محاولاتي للانخراط في هذا الموضوع بطريقة جادة وعميقة، إن العصا البطيئة هي مزحة، الاضطرار إلى الانتظار ساعة في كل مرة.

هناك طن من المنشورات المتجولة التي تبقى من قبل العديد من المستخدمين. الاتساق لا، التحيز، هممم، حسناً هذا ما يبدو عليه هذا المستخدم حتى الآن وأنا لا آخذ الأمور على محمل شخصي ولكن الإشراف العجوز يخنق على أقل تقدير.

أنا فقط أحاول الارتقاء بهذا الوضع الخطير والفظيع الذي نواجهه، وأخيراً نحصل على منشور ممتاز وجاد من @simon

رائع ودقيق تماماً ما يحتاج إليه OP والآخرون لسماعه أولاً. يتم دفن العديد من الخيارات في القسم الإداري الواسع، وأنا شخصياً لم ألاحظ هذه الميزة/الاختيار من قبل. الآن يمكنني تجربتها، سيكون من الجيد لو كان بإمكانها الحصول على معلومات مخصصة أكثر من البطاقة الافتراضية. ربما تتعامل النصوص المخصصة مع ذلك، هل يعرف أحد؟

شكراً جزيلاً. :+1:

إذا كان هذا المقال صحيحًا

ستحتاج إلى إزالة موقعك من الإنترنت المفتوح / حظر جوجل / تمكين login_required.

7 إعجابات

تجدر الإشارة إلى أنه لا يوجد شيء على الإطلاق يتطلب من الزاحف اتباع robots.txt وأن تزييف وكيل المستخدم أمر تافه. لا توجد قوانين تحكم هذه الأشياء. لن يغير أي قدر من الإلحاح أو الجدية هذا. إذا كنت قلقًا بشأن استخدام بياناتك، فكل ما يمكنك فعله هو جعل موقعك خاصًا والانتظار حتى تنتهي الإجراءات القانونية المختلفة المتعلقة ببيانات التدريب.

11 إعجابًا

أتوقع أن تشهد المواقع التي تعتمد على الإعلانات انخفاضًا في الإيرادات وسنبدأ في رؤية المزيد من المحتوى خلف جدران الدفع. سيتم تخفيف جودة الجزء المجاني والمفتوح من الإنترنت.

يمكن لـ Discourse في الواقع الاستفادة من هذا الاتجاه من خلال إنشاء خدمة اشتراك لعملائها المستضافين.

6 إعجابات

هناك بالفعل إضافة اشتراكات قد تكون متاحة لبعض المستويات على المنصات المستضافة. يمكن للمواقع المستضافة ذاتيًا اعتمادها بالفعل.

المشكلة في إخفاء المحتوى هي أنه سيؤثر على تحسين محركات البحث (SEO) لديك، لذا قد يعتمد الأمر على كيفية جذب المستخدمين الجدد لديك.

أنا شخصياً أعتمد على البحث لجذب مستخدمين جدد، لذا أضع القليل فقط من المحتوى خلف جدار حساب.

بالنسبة للعديد من المواقع، لا تزال بحاجة إلى أن يتم اكتشافك!

إعجابَين (2)

يبدو لي أن لديك مخاوف مرتبطة، @agemo، أحدها هو استخدام الذكاء الاصطناعي في البرمجيات، والآخر هو أن تفاعلات الأشخاص العاديين على الويب قد تُستخدم لتدريب الذكاء الاصطناعي. أنت قلق جدًا بشأن هذه الأمور، وتريد ألا تحدث.

أتفهم ذلك. أتوقع أن هذه المخاوف مشتركة بين الكثيرين.

دعني أقول، هناك العديد من الأشياء في العالم التي أقلق بشأنها، وأود أن تكون مختلفة - لكنني لا أثيرها هنا لأنها غير قابلة للتنفيذ من قبل الأشخاص هنا، أو من قبل Discourse كخدمة. إذا استمررت في إثارتها، فقد يكون ذلك مزعجًا وقد أجد نفسي تحت الرقابة.

ربما تشعر بأنك لم تُسمع. لكنني أعتقد أن ما يحدث حقًا في هذا الموضوع هو أن الآخرين في هذا الموضوع يعتقدون أن مخاوفك غير قابلة للتنفيذ، وغير قابلة للتنفيذ هنا أو من قبلهم. ربما يمكن فعل شيء ما، لكن لا يمكن للأفراد هنا فعله. ربما تكون الإجابة هي حركة جماهيرية، حملة، أو ثورة - لكنني أعتقد أنه من العدل إذا شعر المشرفون هنا أن مثل هذه الأمور خارج الموضوع هنا.

3 إعجابات

لقد حدث ذلك. الشيء الذي لا يمكننا تغييره. لقد تم إطلاق العنان للذكاء الاصطناعي الآن وهو الحدث. لم أقترح أبدًا أنه يمكننا التراجع عن الزمن.

اعتقد المشرفون أنهم فهموا هذا الموضوع، لكنهم لا يفهمونه، ومع ذلك يواصلون تعديل مساهماتي. لقد سئمت من الحديث عن الإشراف، بدلاً من الحلول، لكنهم يواصلون فعل ذلك أو مستخدمون آخرون، ربما لا يرون القيمة أو أنهم مرتاحون جدًا.

الحقيقة هي أنه منذ تدخلاتي لمحاولة سحب هذا الموضوع إلى تركيز أكثر قائمًا على الحلول، على الرغم من الإشراف الأخرق، كان هناك بعض النتائج.

قد تعتقد أنك لا تستطيع فعل شيء، ولكن بالنظر إليه والاعتراف بأن:
أ) إنه خطير
ب) إنه عاجل
ج) إنه يحتاج إلى تركيز

هو بداية، وأن لديك سيطرة على رد فعلك، ولكن ليس على الحدث الذي وقع وهو الآن في الماضي ويؤثر على الحاضر يوميًا في المستقبل المنظور.

لا يوجد حل معروض سوى استخدام الحلول المشتقة لمشاكل أخرى بشكل فظ، وبالتالي فإنه يكسر الاقتراح، لأن حدث الذكاء الاصطناعي يجبر الناس على افتراض مواقف تكسر جهودهم بالكامل حتى نقطة الحدث.

من الطبيعي جدًا عدم الرغبة في أن تكون جزءًا من شيء يمثل تهديدًا مباشرًا وسيستغل محتواك في منافسة مباشرة ضد كل جهودك حتى تلك النقطة، على سبيل المثال، لكن الأمر لا يتوقف عند هذا الحد.

سألخص كل شيء بسؤال بلاغي بسيط واحد (يمكنك الجدال فيما إذا كان بلاغيًا أم لا، ولكن سيتعين عليك الاعتراف بالذكاء الاصطناعي).

لماذا قد يفكر أي شخص في نشر نسخة من discourse (أو ما شابه) الآن؟

هناك العديد من المخاوف بشأن هذه القضية، وأحيانًا يجسد موضوع واحد (OP) الكون بأسره لعواقب المشكلة، وهذا بالتأكيد أحدها. لا ينبغي أن يصبح ضيقًا جدًا، خاصة عندما لا يقدم Discourse حلاً حقيقيًا، فإن الموضوع بطبيعته في السياق مفتوح على مصراعيه أو “عذرًا نظرًا لعدم وجود حل لهذه المشكلة، فإن الموضوع مغلق الآن”، اختر.

افتحه أو أغلقه.

هل نفهم هذا؟

هذه هي النقطة. إذا كان هناك اعتراف بعدم وجود إرادة لمعالجة القضية، فافعل ذلك، وإلا فإن هذا الموضوع يبقى ويحتاج إلى أن يكون واسعًا جدًا، وهذا هو مستوى تخفيف الإشراف المطلوب بشأن هذا الموضوع، لأنه أرض بكر.

إذا كان هناك مربع اختيار أو اثنان يصلحان ذلك في الإعدادات، فسنعود جميعًا إلى المنزل، ولكن لا يوجد حقًا، حتى الآن. قد تكون هناك بعض الإجراءات المؤقتة، لكنها ليست في مجال “تم الحل”، وهذا أعتقد أن الجميع يتفق عليه.

نظرًا لعدم بناء أي حلول استجابة مباشرة لمعالجة مخاوف OP وقضية الذكاء الاصطناعي وكيف يجب على المسؤول إدارة ذلك، فإن نقاطي قائمة.

إذا كانت هناك، فيرجى الإشارة إليها، ونشرها هنا أو الحل قيد التطوير أو أي شيء آخر. هل نفهم هذا؟

هناك تكمن مسؤولية، للمطور، للمستخدم، والعلاقة القائمة التي تجعل كل شيء يعمل. لذلك نناقش ذلك. مرارًا وتكرارًا إذا لزم الأمر.

ما أراه هو عدم وجود اعتراف بكيفية كسر هذا حتى المنشورين الأخيرين منذ أن بدأ OP في مايو وهذه احتفلت بها ولكن تم الإشراف عليها. هذه مزحة. الذكاء الاصطناعي يكسر الشبكة بالفعل، مرة أخرى، لماذا تهتم بإعداد منصة discourse أو ما شابه؟ إذا لم نتمكن من مناقشته بطريقة جادة وصادقة وقوية تناسب متطلبات الموضوع، فهذا هو جوابك.

السوق يتحرك، كل الأموال، العيون، والهوس يقع في جيوب OpenAI وشركاه. أرى مطورين في كل مكان هنا مثل أي مكان آخر يتقدمون ويختارون التبني والتكامل الكامل للذكاء الاصطناعي دون أي تمحيص، صفر!

هذا هو السبب في أن OP يبقى محاصرًا ومحبطًا. كسر discourse الخاص بك هو الحل الوحيد المؤكد. وهو ليس حلاً. إنه عمليًا نهاية اللعبة.

تشبيهي لكيفية تفاعل المطورين مع الذكاء الاصطناعي، بلاغيًا: يكاد يكون الجميع مشغولين ببناء جميع أنواع الدلاء الرائعة لجمع الحمم البركانية من ثوران البركان (البركان هو الحدث) ورد الفعل لبناء دلو لجمع الحمم البركانية، الحمم البركانية هدية من إله البركان، إنها تجلب الحرارة والضوء نعم، لكنها تحرق الأشياء بسرعة كبيرة، وبدون الدلو لا يمكنك التحكم في الجزء الذي لديك، لكن الدلو يخفي هذه الحقيقة، يبدو آمنًا، باردًا، أنيقًا، في الوقت الحالي.

لا. هذا لن يكون صحيحًا. لقد أوضحت لماذا أخطأ المشرفون وكيف أن الأمر أكثر خطورة مما يتصورون، وهذا يمكن أن يكون بشكل مخيب للآمال عرضًا للموقف من أعلى إلى أسفل للعلاقة بين Discourse والذكاء الاصطناعي … يبدو الأمر إما “مه” أو هز كتفين، ولكن المشاعر يمكن أن تكون خاطئة لذا أثبت لي خطأ ذلك بنقطة واقعية.

لقد فهم بعض الأشخاص نقاطي، أو نظروا بجدية أكبر إلى OP على الأقل، وقدموا بعض المساهمات الأفضل، والتي أنا ممتن لها لأنها قادتني إلى بضعة مسارات محتملة لحل خام متعدد النقاط، لا يزال قيد العمل، وسيتطلب بعض الاعتراف من المطورين ليتناسب بشكل أفضل مع متطلبات الذكاء الاصطناعي التي أثيرت، لجعله أفضل كإجراء مؤقت ممكن، لا يزال إجراءً مؤقتًا.

لقد كان عقدًا صعبًا أو نحو ذلك للمنتديات عبر الإنترنت من حيث انخفاض حركة المرور والإيرادات. تكسر آثار هذا الحدث تلك الرسوم البيانية للاستياء وبالنسبة للعديد من المشغلين قد يعني شيئًا أقل من حدث نهاية نهائي وسوف يغلقون متاجرهم ببساطة.

أريد إجراء مناقشات حول مواضيع معينة، لذلك أقوم بتشغيل منتديات حيث يمكن للناس الالتقاء ومناقشة تلك المواضيع. لقد اخترت Discourse، ولكن في رأيي، سيكون لأي حل آخر على الويب المفتوح نفس المخاطر ونفس النتائج. أريد أن تكون مناقشاتي على الويب المفتوح وأن تظهر في نتائج البحث.

يمكن للناس إجراء تفاعلات على منصات واعية بالخصوصية مثل Telegram و Signal، وهم يفعلون ذلك، ولكن هذه عروض مختلفة مبنية لأسباب مختلفة. من الممكن أن يقدم Discourse chat بعضًا مما تريده - على سبيل المثال، ليس لدي أي اهتمام بذلك.

إعجابَين (2)