تحتاج حلول GPT ونماذج اللغات الكبيرة (LLMs) الأخرى إلى مجموعات بيانات تدريبية. كيف يمكن منع استخدام محتوى مجتمعاتنا لتدريب مثل هذه النماذج؟ هل يجب أن نضيف شيئًا إلى شروط الاستخدام الخاصة بنا؟
فكرت في هذا بعد قراءة أن Reddit سيجري بعض التغييرات لتجنب تدريب النماذج على بياناتهم دون الحصول على مقابل مادي:
يبدو هذا أقرب إلى “إذا كان بإمكاني قراءة كتاب أحصل عليه من المكتبة، فلماذا لا يمكنني نسخه وبيعه للآخرين؟” بدلاً من “إذا كان بإمكاني التعلم من كتاب، ألا يمكن للكمبيوتر؟”. ربما أنا كبير في السن، لكنني لست مستعدًا للاعتقاد بأن مجموعة من أجهزة الكمبيوتر التي تشغل برنامجًا هي نفسها شخص.
لكنني أعتقد أيضًا أن هناك بالفعل أشياء معمول بها لمنع الكشط بالجملة من الحدوث. أو ربما تكون مواقع الفهرسة لمحركات البحث عبارة عن كشط.
حسنًا، لا يُقبل على نطاق واسع في عالم البشر أن يدخل شخص ما إلى منازل ومكاتب الآخرين، وينسخ كل شيء ثم يعيد إنشاء كل شيء لتحقيق مكاسبه الخاصة لجني المال.
هذا ليس سؤالاً سهلاً. هناك سؤال أخلاقي وأخلاقيات ومالي كبير جدًا يمكن تلخيصه في اثنين: هل حقوق النشر وبراءات الاختراع ممتلكات افتراضية مقبولة أم لا.
بالنسبة لي، هذه مشكلة سهلة جدًا، على الرغم من ذلك. ربما لأنني سمكة صغيرة جدًا وبسيطة التفكير. فورًا عندما أضطر إلى دفع ثمن عمل شخص ما يريد بيعه لي مرة أخرى، أكون ضد ذلك. لهذا السبب أكره بشدة كل حركة الروبوتات.
مرة أخرى: سؤال الذكاء الاصطناعي أكبر بكثير من ChatGPT. وأنا أعرف وأفهم ذلك. ولكن لماذا أدفع أو يجب أن أدفع عندما يتم تدريسه لنماذج اللغة؟
حقيقة ممتعة معروفة على نطاق واسع عن ChatGPT
في العالم الفنلندي، أنا مؤثر كبير جدًا عندما يكون الموضوع هو تغذية الكلاب. لقد فعلت هذا بخجل لأكثر من 30 عامًا، وأنشأت نصوصًا عامة كثيرًا. في الواقع، موقعي هو أكبر موقع معلوماتي (وأود أن أقول الأكثر أهمية ؛)) باللغة الفنلندية.
إذا سألت أي شيء عن تغذية الكلاب باللغة الإنجليزية، فإن ChatGPT يعطي نظريات قديمة وغير دقيقة على نطاق واسع حول طعام الكلاب النيء. إذا طرحت نفس السؤال باللغة الفنلندية، فسأحصل على نصوصي الخاصة.
هذا يحدث لأن طريقة تعلم ChatGPT تتبع التفكير مليون ذبابة لا يمكن أن تكون مخطئة.
عذرًا، لكنني لا أعتقد ذلك. الذكاء الاصطناعي يتذكر الأنماط ويقيم بعض العلاقات، لكنه لا يستطيع الحدس أو الشعور أو الإبداع الحقيقي.
الذكاء الاصطناعي لا يفكر بطريقة صحيحة مثل البشر ولا يسجل الوقت أو المشاعر أو الحياة.
بالمناسبة، أنا أتفق مع بقية وجهة نظرك. التعاون بالإضافة إلى إيجاد ومشاركة حالات الاستخدام أمر جيد للجميع (على الأقل لعدم الاستغناء عن الأشخاص الذين لا يتعلمون كيف يشعرون أو يحدسون أو يبدعون، وهو ما يبدو حتميًا).
الوضع العام يذكرني بالثورة الصناعية وبعض الأفلام الديستوبية
كان استخدامي لمصطلح “مشابه” مبررًا لأنهما يطوران طرقًا لتحديد الأشياء بالميزات تمامًا مثل البشر، بدلاً من نسخ البيانات حرفيًا وتخزينها: هذا هو التمييز الذي أشير إليه وهذا تمييز حاسم، منطقيًا وقانونيًا على حد سواء.
المشاعر والعواطف غير ذات صلة بالمناقشة هنا: الموضوع هو تخزين المعرفة وإعادة إنتاجها. وفي هذا الموضوع، من شبه المؤكد أن الذكاء الاصطناعي يستخدم تقنيات مشابهة للدماغ البشري لتدريب نفسه ثم استخدام هذا النموذج.
وهكذا تم تطوير الأشياء في هذا المجال: لقد أنشأوا نماذج كانت تقريبًا لكيفية عمل الشبكات العصبية في أدمغتنا ثم قاموا بتوسيع نطاقها. وفجأة: بدأت تتصرف بشكل مشابه جدًا للبشر - أكثر من أي نموذج لغوي طبيعي على الإطلاق. هذا يثبت وجهة نظري إلى حد كبير.
أنت تجادل بأن سيارة رولز رويس أفضل، لكنها لا تزال سيارة.
لقد وصل الذكاء الاصطناعي الآن إلى نقطة يتصرف فيها بشكل يشبه الإنسان إلى حد كبير. يظهر سلوك متطور للغاية، لكن هذا ليس من قبيل الصدفة، لأن العلماء سعوا إلى نسخ تقنيات التعلم البشري.
بالطبع هناك طبقات أخرى يجب مراعاتها والعواطف ليست سوى واحدة (أخرى ضخمة هي مفهوم “الأنا” وأهمية المعلومات الحسية الشبيهة بالبشر، حتى الدهليزية، والتي يعتقد أنها حاسمة لإدراك “الأنا”)، لكن هذا لا يغير الحجة هنا في رأيي.
لا، لقد قلت فقط أن الذكاء الاصطناعي لا يمكنه التعلم مثل البشر (التصرف مثل ليس التعلم مثل). هذا ليس ممكنًا على الإطلاق وأعتقد أنه من المهم أخذه في الاعتبار.
إذن أنا أتفق مع البيانات العامة هي بيانات عامة. وبالنسبة لي لا بأس تمامًا في وجود اختلافات، هذا ما يجعلنا بشرًا (وليس ذكاءً اصطناعيًا)
وهو أن الذكاء الاصطناعي يتعلم من الميزات (كما نفعل) ولا ينسخ معلومات محددة. إنه يتعلم التعميم وعدم الاعتماد على التفاصيل الكاملة من أجل إجراء التمييزات.
لهذا السبب، لا يتعين عليه تخزين أعمال كاملة بدقة عالية، حرفياً.
لا شك أن هناك الكثير من تقنيات التعلم الأخرى التي لم يتم دمجها بعد، ولكن هذه التقنية تم دمجها بشكل كبير.
في الواقع، أجد أنه من البغيض أن تخضع أغاني الجاز المكتوبة في الثلاثينيات لحقوق النشر، عندما يمكنك القول بأن العديد من سمات الموسيقى هي ظواهر بشرية بطبيعتها لا ينبغي لأحد أن يمتلكها: خذ مثال “دائرة الخوامس” - هذا هيكل ضمني في الموسيقى يساعد في تشكيل العديد من الأغاني، من أغاني الروك البسيطة ذات الثلاثة أوتار من الخمسينيات إلى ألحان الجاز المعقدة للغاية.
وكما اقترحت، نحن لا نتحدث عن تخزين وإعادة إنتاج مواد محمية بحقوق النشر حرفيًا هنا.
من السخافة منع الذكاء الاصطناعي من استخدام ميزات الموسيقى مثل دائرة الخوامس لمجرد أن معظم الموسيقى تخضع لحقوق النشر!
يمكنك القول بأن مؤلفي تلك الموسيقى استفادوا كثيرًا من الحالة الإنسانية وقد حققوا أرباحًا طائلة بالفعل. لماذا يجب أن يكسب سليل حفيدة المال من عمل سلفهم الذي يعتمد بحد ذاته على المعرفة العامة، هذا أمر مربك بالنسبة لي.
أخشى أنني لست خبيرًا في هذا، لكنني لا أعتقد أن الزواحف يمكنها الوصول إلى المحتوى إذا لم يكن الموقع مرئيًا للعامة، لذلك إذا كان هذا خيارًا متاحًا لك، فقد يكون الطريقة الأكثر فعالية.
هذا ليس صحيحًا على الإطلاق. هذه الأدوات مستوحاة في بعض النواحي من المفاهيم العصبية البيولوجية، ولكن في التنفيذ الفعلي ليست متشابهة وظيفيًا. قد يبدو هذا تدقيقًا في التفاصيل، ولكني أعتقد أنه مهم جدًا، لأن الحجة تبدو مقنعة فلسفيًا. يمكن أن تكون القياسات خطيرة جدًا بهذه الطريقة.
إليك بعض الطرق المحددة التي لا تكون بها الشبكات العصبية الحاسوبية “تتعلم الأنماط بطريقة مشابهة لطريقتنا”.
ترتبط خلايانا العصبية محليًا ومتعددة الأبعاد، مع بعض التجمعات الكثيفة وأخرى أقل اتصالًا؛ عادةً ما يتم ترتيب الشبكات العصبية في طبقات، مع اتصال كل طبقة بالكامل أو طبقة “التفافية” مصممة عمدًا.
تعمل الأدمغة البيولوجية بشكل غير متزامن، حيث تطلق الخلايا العصبية بمعدلات مختلفة، ومع حمل التردد نفسه للمعلومات. الشبكات العصبية هي في الأساس عمليات متوازية بشكل كبير. (هذا هو سبب ملاءمتها الشديدة للحوسبة GPGPU.)
الخلايا العصبية مسؤولة عن كل من الحساب والذاكرة. لا يوجد تخزين أو استرجاع منفصل، أو تنفيذ وظائف. هذا وحده يجعل نظام معالجة من نوع مختلف جدًا.
بشكل غريب: الاتصال في الدماغ أكثر ثنائية من ما نفعله مع أجهزة الكمبيوتر: الخلية العصبية تطلق أو لا تطلق، بينما “الخلية العصبية الاصطناعية” عادةً ما تستقبل وتخرج نطاقات من القيم المستمرة (ممثلة كنقطة عائمة). (مرة أخرى، هذه ليست معالجة على الإطلاق بنفس الطريقة التي نفهم بها عمل الأدمغة.)
يعمل التعلم بشكل مختلف: في التعلم البشري، تتغير الوصلات فعليًا. (نحن لا نفهم هذا جيدًا.) في الشبكة العصبية، يتم اختيار البنية وتثبيتها، و"التعلم" هو مسألة ضبط الأوزان. (من المفارقات أننا لا نفهم هذا جيدًا أيضًا، حقًا.)
على وجه التحديد، بالتأكيد لا يتعلم التعميم. بدلاً من ذلك، يتم إنشاؤه بحيث تكون لديه القدرة على تقديم إجابات تبدو وكأنها تعميم.
لكنه لا يستطيع التعميم على الإطلاق.
أحد التمارين المثيرة للاهتمام مع ChatGPT هو سؤاله عن الضرب. سيؤكد بجدية أنه يفهم خوارزمية الضرب المطول. في الواقع، إذا طلبت منه ضرب أرقام مكونة من رقمين أو ثلاثة أرقام، فمن المحتمل (ولكن ليس بالتأكيد!) أن يعطي الإجابة الصحيحة. ولكن بعد ذلك جرب أرقامًا مكونة من خمسة أو ستة أرقام. سيعطي إجابات تبدو وكأنها تحتوي على العدد الصحيح من الأرقام ولكنها لن تكون صحيحة في الواقع.
إذا طلبت منه الشرح، فسيقول إنه اتبع خوارزمية، وإذا طلبت منه إظهار عمله، فسيفعل، وسيكون هراءً شكله يشبه الإجابة الصحيحة. قد تجد حتى، في الخطوات، ضربًا خاطئًا من رقم واحد. إنه لا “يعرف” في الواقع أن هذه الخطوات هي نفس الشيء مثل ضرب الرقم الواحد الذي قام به للتو بثقة قبل بضع دقائق، لأنه لم يعمم أيًا من ذلك بالفعل.
والرياضيات ليست شيئًا مميزًا هنا. إنها مجرد طريقة سهلة لكشف الستار قليلاً. نفس الشيء الأساسي يحدث عند محاولة جعله يكتب قصيدة.
لا تفهمني خطأ! أعتقد أنه يمكننا القيام بأشياء مذهلة مع الذكاء الاصطناعي حتى كما هو موجود اليوم. ولكن دعنا من فضلك لا نضع سياساتنا حول القياسات.