كيفية منع استخدام محتوى المجتمع في تدريب نماذج اللغات الكبيرة مثل ChatGPT

تحتاج حلول GPT ونماذج اللغات الكبيرة (LLMs) الأخرى إلى مجموعات بيانات تدريبية. كيف يمكن منع استخدام محتوى مجتمعاتنا لتدريب مثل هذه النماذج؟ هل يجب أن نضيف شيئًا إلى شروط الاستخدام الخاصة بنا؟

فكرت في هذا بعد قراءة أن Reddit سيجري بعض التغييرات لتجنب تدريب النماذج على بياناتهم دون الحصول على مقابل مادي:

https://www.nytimes.com/2023/04/18/technology/reddit-ai-openai-google.html

11 إعجابًا

هل تستخدم تلك المشاريع أدوات حصاد تخبر بمعرف مستخدم معين؟

إعجابَين (2)

هل سيحدث فرقًا حقًا عندما يكون هناك 10 مزودين مختلفين للاختيار من بينهم بسعر التكلفة؟

يبدو أن التعلم من الأعمال الجماعية للبشرية أمر عادل بما فيه الكفاية: هذا ما يفعله البشر طوال الوقت، فلماذا لا تفعله الآلات؟

هل تتقاضى Reddit رسومًا من البشر مقابل الأشياء التي يتعلمونها على Reddit؟

هذا النوع من الأشياء ينم عن جشع Reddit.

ولندع الأمر لا يتعلق بحقيقة أن جميع المحتويات الموجودة على Reddit قد تم تقديمها مجانًا من قبل المستخدمين، فلماذا لا تدفع Reddit لمستخدميها؟

6 إعجابات

يبدو هذا أقرب إلى “إذا كان بإمكاني قراءة كتاب أحصل عليه من المكتبة، فلماذا لا يمكنني نسخه وبيعه للآخرين؟” بدلاً من “إذا كان بإمكاني التعلم من كتاب، ألا يمكن للكمبيوتر؟”. ربما أنا كبير في السن، لكنني لست مستعدًا للاعتقاد بأن مجموعة من أجهزة الكمبيوتر التي تشغل برنامجًا هي نفسها شخص.

لكنني أعتقد أيضًا أن هناك بالفعل أشياء معمول بها لمنع الكشط بالجملة من الحدوث. أو ربما تكون مواقع الفهرسة لمحركات البحث عبارة عن كشط.

هذه أوقات مثيرة للاهتمام.

6 إعجابات

حسنًا، لا يُقبل على نطاق واسع في عالم البشر أن يدخل شخص ما إلى منازل ومكاتب الآخرين، وينسخ كل شيء ثم يعيد إنشاء كل شيء لتحقيق مكاسبه الخاصة لجني المال.

هذا ليس سؤالاً سهلاً. هناك سؤال أخلاقي وأخلاقيات ومالي كبير جدًا يمكن تلخيصه في اثنين: هل حقوق النشر وبراءات الاختراع ممتلكات افتراضية مقبولة أم لا.

بالنسبة لي، هذه مشكلة سهلة جدًا، على الرغم من ذلك. ربما لأنني سمكة صغيرة جدًا وبسيطة التفكير. فورًا عندما أضطر إلى دفع ثمن عمل شخص ما يريد بيعه لي مرة أخرى، أكون ضد ذلك. لهذا السبب أكره بشدة كل حركة الروبوتات.

مرة أخرى: سؤال الذكاء الاصطناعي أكبر بكثير من ChatGPT. وأنا أعرف وأفهم ذلك. ولكن لماذا أدفع أو يجب أن أدفع عندما يتم تدريسه لنماذج اللغة؟

حقيقة ممتعة معروفة على نطاق واسع عن ChatGPT

في العالم الفنلندي، أنا مؤثر كبير جدًا عندما يكون الموضوع هو تغذية الكلاب. لقد فعلت هذا بخجل لأكثر من 30 عامًا، وأنشأت نصوصًا عامة كثيرًا. في الواقع، موقعي هو أكبر موقع معلوماتي (وأود أن أقول الأكثر أهمية ؛)) باللغة الفنلندية.

إذا سألت أي شيء عن تغذية الكلاب باللغة الإنجليزية، فإن ChatGPT يعطي نظريات قديمة وغير دقيقة على نطاق واسع حول طعام الكلاب النيء. إذا طرحت نفس السؤال باللغة الفنلندية، فسأحصل على نصوصي الخاصة.

هذا يحدث لأن طريقة تعلم ChatGPT تتبع التفكير مليون ذبابة لا يمكن أن تكون مخطئة.

8 إعجابات

لأن الأمر لا يتعلق بالنسخ الحرفي.

لا يتقاضى أحد مالاً مقابل قراءة كتاب عن الشيوعية في مكتبة ثم الذهاب إلى برنامج حواري سياسي للدعوة إلى الشيوعية.

تتعلم الروبوتات الأنماط بطريقة مشابهة لطريقتنا.

أيضًا، في المحكمة، دون الإشراف على عملية التعلم، كيف ستعرف ما إذا كانت قد فعلت ذلك أم لا؟

في قانون حقوق النشر، من السهل بالتأكيد إثبات ما إذا كان شخص ما قد نسخ عملك، ولكن هنا لا يتعلق الأمر بالنسخ ولا يسهل إثبات أنك قد حصلت على وصول.

هل هناك أي شيء جديد حقًا على ريديت في أي حالة؟!؟

إعجابَين (2)

عذرًا، لكنني لا أعتقد ذلك. الذكاء الاصطناعي يتذكر الأنماط ويقيم بعض العلاقات، لكنه لا يستطيع الحدس أو الشعور أو الإبداع الحقيقي.

الذكاء الاصطناعي لا يفكر بطريقة صحيحة مثل البشر ولا يسجل الوقت أو المشاعر أو الحياة.

بالمناسبة، أنا أتفق مع بقية وجهة نظرك. التعاون بالإضافة إلى إيجاد ومشاركة حالات الاستخدام أمر جيد للجميع (على الأقل لعدم الاستغناء عن الأشخاص الذين لا يتعلمون كيف يشعرون أو يحدسون أو يبدعون، وهو ما يبدو حتميًا).

الوضع العام يذكرني بالثورة الصناعية وبعض الأفلام الديستوبية :slight_smile:

إعجابَين (2)

سأختلف معك مرة أخرى، لأنك تتجاهل وجهة نظري.

كان استخدامي لمصطلح “مشابه” مبررًا لأنهما يطوران طرقًا لتحديد الأشياء بالميزات تمامًا مثل البشر، بدلاً من نسخ البيانات حرفيًا وتخزينها: هذا هو التمييز الذي أشير إليه وهذا تمييز حاسم، منطقيًا وقانونيًا على حد سواء.

المشاعر والعواطف غير ذات صلة بالمناقشة هنا: الموضوع هو تخزين المعرفة وإعادة إنتاجها. وفي هذا الموضوع، من شبه المؤكد أن الذكاء الاصطناعي يستخدم تقنيات مشابهة للدماغ البشري لتدريب نفسه ثم استخدام هذا النموذج.

وهكذا تم تطوير الأشياء في هذا المجال: لقد أنشأوا نماذج كانت تقريبًا لكيفية عمل الشبكات العصبية في أدمغتنا ثم قاموا بتوسيع نطاقها. وفجأة: بدأت تتصرف بشكل مشابه جدًا للبشر - أكثر من أي نموذج لغوي طبيعي على الإطلاق. هذا يثبت وجهة نظري إلى حد كبير.

3 إعجابات

هذا مستحيل عندما يتعلق الأمر بالبشر :slight_smile:

(وربما هذا ما حفز OP)

لا يزال بإمكاننا الاختلاف ولم أذهب أبعد من ذلك. أنا أحترمك وأشاركك وجهات نظري فقط.

إعجابَين (2)

أنت تجادل بأن سيارة رولز رويس أفضل، لكنها لا تزال سيارة.

لقد وصل الذكاء الاصطناعي الآن إلى نقطة يتصرف فيها بشكل يشبه الإنسان إلى حد كبير. يظهر سلوك متطور للغاية، لكن هذا ليس من قبيل الصدفة، لأن العلماء سعوا إلى نسخ تقنيات التعلم البشري.

بالطبع هناك طبقات أخرى يجب مراعاتها والعواطف ليست سوى واحدة (أخرى ضخمة هي مفهوم “الأنا” وأهمية المعلومات الحسية الشبيهة بالبشر، حتى الدهليزية، والتي يعتقد أنها حاسمة لإدراك “الأنا”)، لكن هذا لا يغير الحجة هنا في رأيي.

إعجابَين (2)

لا، لقد قلت فقط أن الذكاء الاصطناعي لا يمكنه التعلم مثل البشر (التصرف مثل ليس التعلم مثل). هذا ليس ممكنًا على الإطلاق وأعتقد أنه من المهم أخذه في الاعتبار.

إذن أنا أتفق مع البيانات العامة هي بيانات عامة. وبالنسبة لي لا بأس تمامًا في وجود اختلافات، هذا ما يجعلنا بشرًا (وليس ذكاءً اصطناعيًا) :grimacing:

إعجابَين (2)

هذا ببساطة خاطئ، في رأيي.
التقدم الذي أحرزناه في هذا المجال يعود على الأرجح إلى أن الذكاء الاصطناعي يتعلم (أكثر) مثل البشر.

3 إعجابات

فقط على المستوى المفاهيمي، هناك المزيد (!)

@StephaneFe هل لي أن أسأل لماذا تبحث عن الحد من “عملية تدريب الذكاء الاصطناعي”؟ (هذا تعاطف إنساني :orange_heart:)

إعجابَين (2)

لم أدّعِ قط أنه لا يوجد المزيد (!!)؟

أنا فقط أقوم بتمييز مركزي واحد:

وهو أن الذكاء الاصطناعي يتعلم من الميزات (كما نفعل) ولا ينسخ معلومات محددة. إنه يتعلم التعميم وعدم الاعتماد على التفاصيل الكاملة من أجل إجراء التمييزات.

لهذا السبب، لا يتعين عليه تخزين أعمال كاملة بدقة عالية، حرفياً.

لا شك أن هناك الكثير من تقنيات التعلم الأخرى التي لم يتم دمجها بعد، ولكن هذه التقنية تم دمجها بشكل كبير.

إعجابَين (2)

هل يمكننا التركيز على كيفية القيام بذلك وليس على سبب ذلك؟

الموضوع ليس مناقشة ما إذا كان هذا مبررًا أم لا لمنع استخدام بياناتنا، ولكن كيفية القيام بذلك؟

هل هناك طرق فعالة لمنع الكشط بشكل عام؟ على سبيل المثال، هل يتطلب تسجيل الدخول للوصول إلى معظم المحتوى؟

9 إعجابات

أعتقد أخلاقيًا وتقنيًا أنه مبرر.

في الواقع، أجد أنه من البغيض أن تخضع أغاني الجاز المكتوبة في الثلاثينيات لحقوق النشر، عندما يمكنك القول بأن العديد من سمات الموسيقى هي ظواهر بشرية بطبيعتها لا ينبغي لأحد أن يمتلكها: خذ مثال “دائرة الخوامس” - هذا هيكل ضمني في الموسيقى يساعد في تشكيل العديد من الأغاني، من أغاني الروك البسيطة ذات الثلاثة أوتار من الخمسينيات إلى ألحان الجاز المعقدة للغاية.

وكما اقترحت، نحن لا نتحدث عن تخزين وإعادة إنتاج مواد محمية بحقوق النشر حرفيًا هنا.

من السخافة منع الذكاء الاصطناعي من استخدام ميزات الموسيقى مثل دائرة الخوامس لمجرد أن معظم الموسيقى تخضع لحقوق النشر!

يمكنك القول بأن مؤلفي تلك الموسيقى استفادوا كثيرًا من الحالة الإنسانية وقد حققوا أرباحًا طائلة بالفعل. لماذا يجب أن يكسب سليل حفيدة المال من عمل سلفهم الذي يعتمد بحد ذاته على المعرفة العامة، هذا أمر مربك بالنسبة لي.

5 إعجابات

أخشى أنني لست خبيرًا في هذا، لكنني لا أعتقد أن الزواحف يمكنها الوصول إلى المحتوى إذا لم يكن الموقع مرئيًا للعامة، لذلك إذا كان هذا خيارًا متاحًا لك، فقد يكون الطريقة الأكثر فعالية.

9 إعجابات

هذا ليس صحيحًا على الإطلاق. هذه الأدوات مستوحاة في بعض النواحي من المفاهيم العصبية البيولوجية، ولكن في التنفيذ الفعلي ليست متشابهة وظيفيًا. قد يبدو هذا تدقيقًا في التفاصيل، ولكني أعتقد أنه مهم جدًا، لأن الحجة تبدو مقنعة فلسفيًا. يمكن أن تكون القياسات خطيرة جدًا بهذه الطريقة.

إليك بعض الطرق المحددة التي لا تكون بها الشبكات العصبية الحاسوبية “تتعلم الأنماط بطريقة مشابهة لطريقتنا”.

  • ترتبط خلايانا العصبية محليًا ومتعددة الأبعاد، مع بعض التجمعات الكثيفة وأخرى أقل اتصالًا؛ عادةً ما يتم ترتيب الشبكات العصبية في طبقات، مع اتصال كل طبقة بالكامل أو طبقة “التفافية” مصممة عمدًا.
  • تعمل الأدمغة البيولوجية بشكل غير متزامن، حيث تطلق الخلايا العصبية بمعدلات مختلفة، ومع حمل التردد نفسه للمعلومات. الشبكات العصبية هي في الأساس عمليات متوازية بشكل كبير. (هذا هو سبب ملاءمتها الشديدة للحوسبة GPGPU.)
  • الخلايا العصبية مسؤولة عن كل من الحساب والذاكرة. لا يوجد تخزين أو استرجاع منفصل، أو تنفيذ وظائف. هذا وحده يجعل نظام معالجة من نوع مختلف جدًا.
  • بشكل غريب: الاتصال في الدماغ أكثر ثنائية من ما نفعله مع أجهزة الكمبيوتر: الخلية العصبية تطلق أو لا تطلق، بينما “الخلية العصبية الاصطناعية” عادةً ما تستقبل وتخرج نطاقات من القيم المستمرة (ممثلة كنقطة عائمة). (مرة أخرى، هذه ليست معالجة على الإطلاق بنفس الطريقة التي نفهم بها عمل الأدمغة.)
  • يعمل التعلم بشكل مختلف: في التعلم البشري، تتغير الوصلات فعليًا. (نحن لا نفهم هذا جيدًا.) في الشبكة العصبية، يتم اختيار البنية وتثبيتها، و"التعلم" هو مسألة ضبط الأوزان. (من المفارقات أننا لا نفهم هذا جيدًا أيضًا، حقًا.)

هذه أيضًا قراءة مفيدة جدًا: What Is ChatGPT Doing … and Why Does It Work?—Stephen Wolfram Writings

5 إعجابات

على وجه التحديد، بالتأكيد لا يتعلم التعميم. بدلاً من ذلك، يتم إنشاؤه بحيث تكون لديه القدرة على تقديم إجابات تبدو وكأنها تعميم.

لكنه لا يستطيع التعميم على الإطلاق.

أحد التمارين المثيرة للاهتمام مع ChatGPT هو سؤاله عن الضرب. سيؤكد بجدية أنه يفهم خوارزمية الضرب المطول. في الواقع، إذا طلبت منه ضرب أرقام مكونة من رقمين أو ثلاثة أرقام، فمن المحتمل (ولكن ليس بالتأكيد!) أن يعطي الإجابة الصحيحة. ولكن بعد ذلك جرب أرقامًا مكونة من خمسة أو ستة أرقام. سيعطي إجابات تبدو وكأنها تحتوي على العدد الصحيح من الأرقام ولكنها لن تكون صحيحة في الواقع.

إذا طلبت منه الشرح، فسيقول إنه اتبع خوارزمية، وإذا طلبت منه إظهار عمله، فسيفعل، وسيكون هراءً شكله يشبه الإجابة الصحيحة. قد تجد حتى، في الخطوات، ضربًا خاطئًا من رقم واحد. إنه لا “يعرف” في الواقع أن هذه الخطوات هي نفس الشيء مثل ضرب الرقم الواحد الذي قام به للتو بثقة قبل بضع دقائق، لأنه لم يعمم أيًا من ذلك بالفعل.

والرياضيات ليست شيئًا مميزًا هنا. إنها مجرد طريقة سهلة لكشف الستار قليلاً. نفس الشيء الأساسي يحدث عند محاولة جعله يكتب قصيدة.

لا تفهمني خطأ! أعتقد أنه يمكننا القيام بأشياء مذهلة مع الذكاء الاصطناعي حتى كما هو موجود اليوم. ولكن دعنا من فضلك لا نضع سياساتنا حول القياسات.

6 إعجابات

لا، إنها لا تفعل ذلك. إنها تتعلم احتمالات كيفية ترابط الكلمات. وهذا يؤدي إلى النسخ واللصق الفعلي.

نحن نتعلم معالجة المعرفة.

إعجاب واحد (1)