كيفية منع استخدام محتوى المجتمع في تدريب نماذج اللغات الكبيرة مثل ChatGPT

هذا أمر محبط إلى حد ما.

كنت أستخدم مصطلح “مشابه” بشكل فضفاض إلى حد ما ولكنه صحيح بالتأكيد، فقط فيما يتعلق بمفهوم واحد ولأغراض دعم نقطة محددة. اعتقدت أن ذلك كان واضحًا؟

كانت نقطتي في ذكر التشابه تقتصر على مفهوم استخراج “الميزات” ومطابقتها، لا شيء آخر، من أجل التمييز بين مفاهيم التعلم وحفظ النسخ حرفيًا.

أنا على دراية تامة بوجود اختلافات كبيرة أيضًا.

هل تعلم أنني أعرف أن رأس الإنسان لا يشبه مركز البيانات، أليس كذلك؟ :rofl:

هل تقول إنه لا يوجد استخراج للميزات ومطابقتها في الدماغ البشري؟

لأن هذا ما يفعله:

  • “تعلم كواشف الميزات
    لتمكين النظام الإدراكي من إجراء التمييزات الدقيقة المطلوبة للتحكم في السلوك، يحتاج القشرة الحسية إلى طريقة فعالة لتكييف أوزان التشابك العصبي لطبقات متعددة من الخلايا العصبية التي تكشف الميزات.” *

انظر أيضًا Feature detection (nervous system) - Wikipedia

هذا تناقض. إنه ليس نسخ ولصق على الإطلاق وهذا هو جوهر نقطتي.

يمكن القول إنه ليس حتى ضغطًا فاقدًا للبيانات:

نعم يستطيع. ومرة أخرى، تحذير: :sweat_smile: ، ليس إلى الحد الذي نستطيعه.

ChatGPT يقوم بالتعميم. هذا هو ما يعنيه مطابقة الأنماط أو استخراج الميزات! إنه قادر على تكوين كلمات بترتيب منطقي يتوافق مع قواعد النحو. لقد “تعلم” مجموعة معقدة من الميزات وهو قادر على بناء جمل منطقية نحويًا بغض النظر عن مجال الموضوع. إنه لا يخزن كل تركيبة ممكنة من الكلمات ويعيد تدوير تطابق واحد بالضبط في كل مرة، أي ليس نسخ ولصق! هذا مجرد توضيح واحد. الاستجابات التي يقدمها توضح تطورًا متزايدًا.

لكن بالتأكيد ليس متطورًا بما يكفي “لفهم” الرياضيات. ليس بعد. (وربما لن يكون أبدًا بهذه التقنية الحالية؟).

أدرك تمامًا أن مستوى التطور لا يطابق الدماغ، وأنه محدود النطاق وأن التنفيذ المادي لكل هذا مختلف جدًا. لكن هذا لا يبطل نقطتي…

… التي كانت محددة!

في المرة القادمة سأتأكد من التحذير بعناية من نقطتي لتجنب هذه الضوضاء غير الضرورية. :sweat_smile:

إعجابَين (2)

بقدر ما هي الفلسفة رائعة وتستحق النقاش، أعتقد أن المؤلف الأصلي يبحث تحديدًا عن نصائح عملية حول كيفية التخفيف من ذلك. هل يمكننا البقاء في صلب الموضوع والتركيز على تلك النقاط؟ :pray:

11 إعجابًا

أتفق تمامًا! لكننا انحرفنا عن المسار…

بالفعل. هناك مخاطر حقيقية من أن يتم الكشف عن بيانات التدريب في مخرجات نماذج اللغة الكبيرة (LLM)، وعندما يحدث ذلك يمكن أن يكون مشكلة تتعلق بالخصوصية أو مشكلة تتعلق بحقوق النشر. أعتقد أن الأدوات المناسبة هي من ناحية قوانين حماية البيانات، ومن ناحية أخرى قوانين حقوق النشر، وبالتالي الترخيص.

أعتقد أنه لن يضر أن تمنع الشروط والأحكام الخاصة بالاستخدام بعض الأفعال، مثل كشط البيانات، والتنزيل على نطاق واسع، والإدراج في بيانات التدريب للتعلم الآلي. ولكن للتنفيذ، أقترح بعض الوضوح في ترخيص المحتوى. ولتحقيق الفعالية، يجب أن يكون ترخيص مناسب وواضح جزءًا من التثبيت الافتراضي، بحيث يكون لدى معظم مثيلات Discourse نفس النهج لحماية أنفسهم.

أتطلع إلى كيانات مثل EFF للحصول على نماذج للسياسات المناسبة.

3 إعجابات

أوه، هناك شيء مهم لإضافته. إذا قمت بتقييد ترخيص محتوى منتدى الخاص بك، فقد تجعل من الصعب أو المستحيل في أسوأ الأحوال ترحيل منتدى الخاص بك إلى منصة جديدة. لا تفعل ذلك!

(هناك جانب اجتماعي أيضًا، على الرغم من أنه قد يكون بسيطًا. إذا كانت شروط المنتدى الخاص بك تنص على أن مساهمات الشخص تصبح ملكًا للمنتدى، فإن ذلك سيثني بعض الأشخاص. ولكنك تحتاج إلى شيء ما: لا تريد أن يتمكن المستخدمون الذين يغادرون من الإصرار على إزالة جميع مشاركاتهم. هذه مشكلة مختلفة عن الموضوع هنا، لكنها توضح أن الشروط مهمة.)

إعجابَين (2)

في الدول الغربية على الأقل، مثل هذا الشرط لا معنى له على الإطلاق ويظهر شيئًا واحدًا فقط: المالك الأساسي للمنصة ليس لديه أي معرفة على الإطلاق.

إعجابَين (2)

السبب مثير للاهتمام (للغاية).
لماذا تريد أن تعرف كيفية القيام بذلك؟ للقيام بذلك، بلا شك.
ولكن لماذا؟ إنه توسع للسؤال إلى حد ما.

هذا سؤال جيد. ومستخدمو المنتدى أنفسهم يصبحون كتبًا هنا.

أعتقد أن إحدى الطرق، والتي يبدو أنها تُطبق في العديد من المواقع، هي تحليل سلوك المستخدم. إذا تم مسح عدد “كبير جدًا” من الصفحات، خاصة إذا تم ذلك “بسرعة كبيرة”، فعلى الأرجح أنه كشط. يمكن إضافة بعض المعلمات، مثل استخدام “عنوان IP للمضيف” بدلاً من عنوان IP سكني، وحقيقة استخدام متصفح “بدون رأس”، وعدم قبول ملفات تعريف الارتباط، وما إلى ذلك.

لذلك نعم، يمكن تعريف كل هذا وضبطه للمضي قدمًا لمحاولة حظر أكبر قدر ممكن من الكشط تقنيًا. الطريقة المعتادة للقيام بالأشياء هي طلب CAPTCHA عند الاشتباه في سلوك يشبه الروبوت. هذا يسمح للبشر بالاستمرار، وهو ما لن يكون ممكنًا إذا كان النظام يمنع المستخدم ببساطة.

الآن، يمكن دائمًا التحايل على كل هذا إذا أراد شخص ما الاستمرار في القيام بذلك. عن طريق تجنب التعرف عليه والظهور كعدد كبير من المستخدمين المختلفين، والظهور بمظهر أكثر شرعية على العديد من الجبهات، وتدوير عناوين IP السكنية، وما إلى ذلك. إنها رياضة تقريبًا معرفة كيفية كشط ما يصمم النظام لمنعك من القيام به. بعض الناس جيدون جدًا في ذلك. هناك الكثير من الموارد المتاحة للقيام بذلك.

الكيانات الشرعية مثل الأشخاص الذين يقفون وراء ChatGPT وما شابه ذلك لن يسلكوا هذا الطريق على الأرجح. من المرجح أيضًا أن يكونوا أكثر ميلًا لاحترام شروط الخدمة، ويأتون بمعرف مستخدم مباشر، وما إلى ذلك. لتثبيطهم، قد يكون مجرد حقيقة “قانونية” بسيطة تقول إنك تمنع ذلك كافيًا. هذا لن ينجح مع الأشخاص الأقل اهتمامًا بالجوانب القانونية والمباشرة.

أحد الحلول البسيطة جدًا هو تقييد مقدار ما يمكن عرضه كضيف دون الحاجة إلى تسجيل الدخول. ولكن مرة أخرى، كما هو الحال غالبًا، ستواجه صعوبة كبيرة في منع أولئك الذين يريدون حقًا القيام بذلك إذا كانوا متحمسين بما فيه الكفاية. قد لا يكون الأشخاص الأخيرون هم الأشخاص المهمون الذين يجب استهدافهم في هذه المسألة.

4 إعجابات

أعتقد أن هذا يتم التحكم فيه مثل أي زاحف آخر. توجد إعدادات لرفض الوصول حسب وكيل المستخدم. إذا استخدم الزاحف وكيل مستخدم يشير إلى ما يفعله، يمكنك التحكم فيه.

ليس من الواضح لي من أين حصلت GPT على مجموعة بياناتها الأولية أو أين ستحصل على بيانات جديدة. ستحتاج إلى معرفة وكلاء المستخدم، على ما أعتقد.

6 إعجابات

هل يعمل ذلك بخلاف ملف robots.txt، على مستوى جدار الحماية؟

إعجابَين (2)

المناقشات على الإنترنت لها أيام محسوبة وهذا الخيط والاستجابة لسؤالي الحقيقي (من أجل استكشاف كيف) هو مقدمة واضحة.

حاليًا، لا توجد طريقة للقيام بذلك للأسف، حيث أن البحث هو مجرد غلاف ويب.
https://answers.microsoft.com/en-us/bing/forum/all/opt-out-of-bing-chatgpt-ai/8d76e65b-6c8b-42ab-be4b-39e433045703

User-agent: OpenAI Disallow: /

أو

<meta name='robots' content='noindex, nofollow'>

3 إعجابات

وهل ستتبع هذه القاعدة بالتأكيد؟

إعجابَين (2)

أود أن أقول إن هذا موضوع رائع، بالكاد يُسمح به هنا حسب وجهة نظري، ولكنه كذلك

أعتقد أن هذا يلخص الأمر بشكل جيد

لول، هذا يدخل في منطقة سكاي نت، هل سيقوم الذكاء الاصطناعي بشيء خاص به

أود أن أقدم مثالاً على نعم سيفعل

العديد من الأديان مبنية على الكتاب المقدس، والكتاب المقدس مبني على تقاليد البشر

لذا نعم، يمكن للمخلوق أن يتفوق على الخالق.

في يوم من الأيام، إذا لم نُوقف، قد نصبح كتبًا لكتاب مقدس جديد

قد تكونوا جميعًا تلاميذ :hugs:

أوروبوروس

إنها أداة أو لعبة حتى لا تكون كذلك :man_shrugging:

3 إعجابات

نكتة مضحكة - ولكن في العالم الحقيقي، الغالبية العظمى من الروبوتات لا تتبع قواعد robots.txt. إنها مجرد اقتراح، وليست نوعًا من جدار الحماية.

5 إعجابات

robots.txt هي تعليمات مخصصة للزواحف نفسها
يعتمد ذلك على افتراض أنها ستتبعها. لا يوجد ما يضمن أن هذا سيكون هو الحال “بالتأكيد”.

يمكنك حظر وكلاء المستخدم على مستوى خادم الويب الخاص بك. في أغلب الأحيان، يتم استخدام NGINX مع Discourse.
هنا، لن يقدم خادم الويب الخاص بك أي محتوى لوكلاء المستخدم هؤلاء. يتم ذلك عن طريق إضافة بضعة أسطر إلى ملف تكوين NGINX الخاص بموقعك. قم بإجراء بحث على الويب عن nginx block user agent أو بحث مشابه.

هذا “بالتأكيد”، إذا أظهر الزاحف وكيل مستخدم صادق.

3 إعجابات

وهو بالتأكيد ليس “بالتأكيد”. :slight_smile:

إعجابَين (2)

إنه يمنع بالتأكيد وكلاء المستخدم التي تريد حظرها :+1:
(تعديل ليكون :100: % واضح: باستخدام NGINX كما هو موضح أعلاه وليس بالاعتماد فقط على robots.txt)

إنه ليس حلاً مؤكدًا للمشكلة بأكملها إذا كنت تتعامل مع جهات فاعلة خبيثة لا تعرف عن نفسها بشكل صحيح. لكنني أعتقد أنك فهمت ذلك تمامًا.

3 إعجابات

هذا يبدأ في أن يكون مملاً بعض الشيء… ولكن لا. هناك الكثير من المواقف التي لا يتبع فيها حتى جوجل ملف robots.txt.

لا يزال اقتراحًا ولا ينبغي لأحد أن يثق به أبدًا.

حسنًا، نحن نفكر بنفس الطريقة.

أرى ردين أخافاني حقًا ولا أريد الدفع، ولكن عاجلاً أم آجلاً قد يكون ذلك إلزاميًا للعمل.

(لم أقدم رقم بطاقتي الائتمانية واستخدمت دائمًا أشياء مؤقتة، على الأقل للبقاء بعيدًا عن المسار)

لكن الناس يدفعون وقفزوا إلى 4 و 10 أضعاف، ثم 100 أضعاف، 24 دولارًا في اليوم. أعمل في الأسواق مباشرة وهذا سريالي.



عادةً لا أستخدم هذا الجهاز للبحث على الويب (اختيار اختبارات التحقق من صحة الإنسان لعدد قليل من الشركات الكبيرة) لأنني أشعر بأمان وخصوصية أكبر عند التصفح في لينكس. أشك في أن شخصًا ما قد يفكر بطريقة مماثلة وأحترم ذلك إذا لم يكن هذا هو حالك.

المصدر المفتوح يتم التحكم فيه أيضًا بطريقة ما، قد يبدو الأمر عصبيًا بعض الشيء أو أي شيء آخر، لكنني أفضل المحادثات البشرية في مجتمعنا ونحن نناقش الحدود وربما نستخدم الطرق لحظر شيء لا يعرف أحد أين يمكن أن يتوقف.

تم حقن الهلوسة، يقوم الناس باستنساخ أنفسهم. يمكن أن يؤدي ذلك إلى كسر المعلومات ونشر الكثير من السيطرة في مجموعة.

ربما نحن في وقت جيد لمناقشة الحدود والقيم والخصوصية. ليس الرقابة، أو تقديم شكاوى، أو تجنب مناقشة جيدة.

إذا كنا على ما يرام في هذا الموضوع، يجب أن أشارك وجهات نظري وأبحاثي بعمق حول نقاطي غير الصلبة ولكن الحقيقية.

هل يمكن أن يكون الذكاء الاصطناعي بدون OpenAI (غير مفتوح) أداة ممكنة وأفضل للمجتمعات؟

من فضلك، انتقل إذا كنت تعتبر هذا خارج الموضوع، أو ادمجه إذا أردت.

لا أعرف ما إذا كان يمكن تكييف هذا المفهوم لمنتدى، ولكني أقوم بتشغيل هذا الرمز في ملف .htaccess الخاص بي على مدونتي.

RewriteCond %{HTTP_USER_AGENT} ^.*(aolbuild|baidu|bingbot|bingpreview|msnbot|duckduckgo|mediapartners-google|googlebot|Googlebot|adsbot-google|teoma|slurp|yandex|Baiduspider|facebookexternalhit|applebot|FeedFetcher-Google).*$ [NC]	
RewriteRule ^/?REDIRECT-THIS-URL?$\t/TO-THIS-URL\t[L,R=301,NC]

الفكرة هنا هي إعادة توجيه وكلاء المستخدم هؤلاء فقط الذين يزورون صفحة X. في حالتي، أقوم بإعادة توجيه وكلاء المستخدم المذكورين أعلاه الذين يزورون مقالات الأحداث الحالية، مع الاستمرار في جعل محتوى الكتاب المقدس الخاص بي متاحًا لكل شيء. لقد فعلت هذا لأغراض تحسين محركات البحث، مما أحدث فرقًا، ربما هناك طريقة لاستخدام شيء مثل هذا لحظر روبوت الذكاء الاصطناعي؟

المشكلة في الكود الخاص بي، لكل عنوان URL، تحتاج إلى سطر آخر من الكود.

إعجابَين (2)

بالتأكيد. هذا حل يتعامل فيه خادم الويب الخاص بك مع وكلاء مستخدم محددين بطريقة معينة. إنه هو نفسه تقريبًا ما وصفته أعلاه. إنه يعمل طالما أن الروبوت يعرف عن نفسه باستخدام وكيل مستخدم صحيح.

إعجاب واحد (1)

للإضافة إلى هذا الموضوع، هل يعرف أحد ما إذا كان وكيل مستخدم ChatGPT يحصل على إصدار الزاحف؟ أشك في ذلك… ربما يجب إضافة ذلك إلى قائمة “الزواحف”.