كنت أستخدم مصطلح “مشابه” بشكل فضفاض إلى حد ما ولكنه صحيح بالتأكيد، فقط فيما يتعلق بمفهوم واحد ولأغراض دعم نقطة محددة. اعتقدت أن ذلك كان واضحًا؟
كانت نقطتي في ذكر التشابه تقتصر على مفهوم استخراج “الميزات” ومطابقتها، لا شيء آخر، من أجل التمييز بين مفاهيم التعلم وحفظ النسخ حرفيًا.
أنا على دراية تامة بوجود اختلافات كبيرة أيضًا.
هل تعلم أنني أعرف أن رأس الإنسان لا يشبه مركز البيانات، أليس كذلك؟
هل تقول إنه لا يوجد استخراج للميزات ومطابقتها في الدماغ البشري؟
لأن هذا ما يفعله:
“تعلم كواشف الميزات
لتمكين النظام الإدراكي من إجراء التمييزات الدقيقة المطلوبة للتحكم في السلوك، يحتاج القشرة الحسية إلى طريقة فعالة لتكييف أوزان التشابك العصبي لطبقات متعددة من الخلايا العصبية التي تكشف الميزات.” *
هذا تناقض. إنه ليس نسخ ولصق على الإطلاق وهذا هو جوهر نقطتي.
يمكن القول إنه ليس حتى ضغطًا فاقدًا للبيانات:
نعم يستطيع. ومرة أخرى، تحذير: ، ليس إلى الحد الذي نستطيعه.
ChatGPT يقوم بالتعميم. هذا هو ما يعنيه مطابقة الأنماط أو استخراج الميزات! إنه قادر على تكوين كلمات بترتيب منطقي يتوافق مع قواعد النحو. لقد “تعلم” مجموعة معقدة من الميزات وهو قادر على بناء جمل منطقية نحويًا بغض النظر عن مجال الموضوع. إنه لا يخزن كل تركيبة ممكنة من الكلمات ويعيد تدوير تطابق واحد بالضبط في كل مرة، أي ليس نسخ ولصق! هذا مجرد توضيح واحد. الاستجابات التي يقدمها توضح تطورًا متزايدًا.
لكن بالتأكيد ليس متطورًا بما يكفي “لفهم” الرياضيات. ليس بعد. (وربما لن يكون أبدًا بهذه التقنية الحالية؟).
أدرك تمامًا أن مستوى التطور لا يطابق الدماغ، وأنه محدود النطاق وأن التنفيذ المادي لكل هذا مختلف جدًا. لكن هذا لا يبطل نقطتي…
… التي كانت محددة!
في المرة القادمة سأتأكد من التحذير بعناية من نقطتي لتجنب هذه الضوضاء غير الضرورية.
بقدر ما هي الفلسفة رائعة وتستحق النقاش، أعتقد أن المؤلف الأصلي يبحث تحديدًا عن نصائح عملية حول كيفية التخفيف من ذلك. هل يمكننا البقاء في صلب الموضوع والتركيز على تلك النقاط؟
بالفعل. هناكمخاطر حقيقية من أن يتم الكشف عن بيانات التدريب في مخرجات نماذج اللغة الكبيرة (LLM)، وعندما يحدث ذلك يمكن أن يكون مشكلة تتعلق بالخصوصية أو مشكلة تتعلق بحقوق النشر. أعتقد أن الأدوات المناسبة هي من ناحية قوانين حماية البيانات، ومن ناحية أخرى قوانين حقوق النشر، وبالتالي الترخيص.
أعتقد أنه لن يضر أن تمنع الشروط والأحكام الخاصة بالاستخدام بعض الأفعال، مثل كشط البيانات، والتنزيل على نطاق واسع، والإدراج في بيانات التدريب للتعلم الآلي. ولكن للتنفيذ، أقترح بعض الوضوح في ترخيص المحتوى. ولتحقيق الفعالية، يجب أن يكون ترخيص مناسب وواضح جزءًا من التثبيت الافتراضي، بحيث يكون لدى معظم مثيلات Discourse نفس النهج لحماية أنفسهم.
أتطلع إلى كيانات مثل EFF للحصول على نماذج للسياسات المناسبة.
أوه، هناك شيء مهم لإضافته. إذا قمت بتقييد ترخيص محتوى منتدى الخاص بك، فقد تجعل من الصعب أو المستحيل في أسوأ الأحوال ترحيل منتدى الخاص بك إلى منصة جديدة. لا تفعل ذلك!
(هناك جانب اجتماعي أيضًا، على الرغم من أنه قد يكون بسيطًا. إذا كانت شروط المنتدى الخاص بك تنص على أن مساهمات الشخص تصبح ملكًا للمنتدى، فإن ذلك سيثني بعض الأشخاص. ولكنك تحتاج إلى شيء ما: لا تريد أن يتمكن المستخدمون الذين يغادرون من الإصرار على إزالة جميع مشاركاتهم. هذه مشكلة مختلفة عن الموضوع هنا، لكنها توضح أن الشروط مهمة.)
السبب مثير للاهتمام (للغاية).
لماذا تريد أن تعرف كيفية القيام بذلك؟ للقيام بذلك، بلا شك.
ولكن لماذا؟ إنه توسع للسؤال إلى حد ما.
هذا سؤال جيد. ومستخدمو المنتدى أنفسهم يصبحون كتبًا هنا.
أعتقد أن إحدى الطرق، والتي يبدو أنها تُطبق في العديد من المواقع، هي تحليل سلوك المستخدم. إذا تم مسح عدد “كبير جدًا” من الصفحات، خاصة إذا تم ذلك “بسرعة كبيرة”، فعلى الأرجح أنه كشط. يمكن إضافة بعض المعلمات، مثل استخدام “عنوان IP للمضيف” بدلاً من عنوان IP سكني، وحقيقة استخدام متصفح “بدون رأس”، وعدم قبول ملفات تعريف الارتباط، وما إلى ذلك.
لذلك نعم، يمكن تعريف كل هذا وضبطه للمضي قدمًا لمحاولة حظر أكبر قدر ممكن من الكشط تقنيًا. الطريقة المعتادة للقيام بالأشياء هي طلب CAPTCHA عند الاشتباه في سلوك يشبه الروبوت. هذا يسمح للبشر بالاستمرار، وهو ما لن يكون ممكنًا إذا كان النظام يمنع المستخدم ببساطة.
الآن، يمكن دائمًا التحايل على كل هذا إذا أراد شخص ما الاستمرار في القيام بذلك. عن طريق تجنب التعرف عليه والظهور كعدد كبير من المستخدمين المختلفين، والظهور بمظهر أكثر شرعية على العديد من الجبهات، وتدوير عناوين IP السكنية، وما إلى ذلك. إنها رياضة تقريبًا معرفة كيفية كشط ما يصمم النظام لمنعك من القيام به. بعض الناس جيدون جدًا في ذلك. هناك الكثير من الموارد المتاحة للقيام بذلك.
الكيانات الشرعية مثل الأشخاص الذين يقفون وراء ChatGPT وما شابه ذلك لن يسلكوا هذا الطريق على الأرجح. من المرجح أيضًا أن يكونوا أكثر ميلًا لاحترام شروط الخدمة، ويأتون بمعرف مستخدم مباشر، وما إلى ذلك. لتثبيطهم، قد يكون مجرد حقيقة “قانونية” بسيطة تقول إنك تمنع ذلك كافيًا. هذا لن ينجح مع الأشخاص الأقل اهتمامًا بالجوانب القانونية والمباشرة.
أحد الحلول البسيطة جدًا هو تقييد مقدار ما يمكن عرضه كضيف دون الحاجة إلى تسجيل الدخول. ولكن مرة أخرى، كما هو الحال غالبًا، ستواجه صعوبة كبيرة في منع أولئك الذين يريدون حقًا القيام بذلك إذا كانوا متحمسين بما فيه الكفاية. قد لا يكون الأشخاص الأخيرون هم الأشخاص المهمون الذين يجب استهدافهم في هذه المسألة.
أعتقد أن هذا يتم التحكم فيه مثل أي زاحف آخر. توجد إعدادات لرفض الوصول حسب وكيل المستخدم. إذا استخدم الزاحف وكيل مستخدم يشير إلى ما يفعله، يمكنك التحكم فيه.
ليس من الواضح لي من أين حصلت GPT على مجموعة بياناتها الأولية أو أين ستحصل على بيانات جديدة. ستحتاج إلى معرفة وكلاء المستخدم، على ما أعتقد.
robots.txt هي تعليمات مخصصة للزواحف نفسها
يعتمد ذلك على افتراض أنها ستتبعها. لا يوجد ما يضمن أن هذا سيكون هو الحال “بالتأكيد”.
يمكنك حظر وكلاء المستخدم على مستوى خادم الويب الخاص بك. في أغلب الأحيان، يتم استخدام NGINX مع Discourse.
هنا، لن يقدم خادم الويب الخاص بك أي محتوى لوكلاء المستخدم هؤلاء. يتم ذلك عن طريق إضافة بضعة أسطر إلى ملف تكوين NGINX الخاص بموقعك. قم بإجراء بحث على الويب عن nginx block user agent أو بحث مشابه.
عادةً لا أستخدم هذا الجهاز للبحث على الويب (اختيار اختبارات التحقق من صحة الإنسان لعدد قليل من الشركات الكبيرة) لأنني أشعر بأمان وخصوصية أكبر عند التصفح في لينكس. أشك في أن شخصًا ما قد يفكر بطريقة مماثلة وأحترم ذلك إذا لم يكن هذا هو حالك.
المصدر المفتوح يتم التحكم فيه أيضًا بطريقة ما، قد يبدو الأمر عصبيًا بعض الشيء أو أي شيء آخر، لكنني أفضل المحادثات البشرية في مجتمعنا ونحن نناقش الحدود وربما نستخدم الطرق لحظر شيء لا يعرف أحد أين يمكن أن يتوقف.
تم حقن الهلوسة، يقوم الناس باستنساخ أنفسهم. يمكن أن يؤدي ذلك إلى كسر المعلومات ونشر الكثير من السيطرة في مجموعة.
ربما نحن في وقت جيد لمناقشة الحدود والقيم والخصوصية. ليس الرقابة، أو تقديم شكاوى، أو تجنب مناقشة جيدة.
إذا كنا على ما يرام في هذا الموضوع، يجب أن أشارك وجهات نظري وأبحاثي بعمق حول نقاطي غير الصلبة ولكن الحقيقية.
هل يمكن أن يكون الذكاء الاصطناعي بدون OpenAI (غير مفتوح) أداة ممكنة وأفضل للمجتمعات؟
من فضلك، انتقل إذا كنت تعتبر هذا خارج الموضوع، أو ادمجه إذا أردت.
الفكرة هنا هي إعادة توجيه وكلاء المستخدم هؤلاء فقط الذين يزورون صفحة X. في حالتي، أقوم بإعادة توجيه وكلاء المستخدم المذكورين أعلاه الذين يزورون مقالات الأحداث الحالية، مع الاستمرار في جعل محتوى الكتاب المقدس الخاص بي متاحًا لكل شيء. لقد فعلت هذا لأغراض تحسين محركات البحث، مما أحدث فرقًا، ربما هناك طريقة لاستخدام شيء مثل هذا لحظر روبوت الذكاء الاصطناعي؟
المشكلة في الكود الخاص بي، لكل عنوان URL، تحتاج إلى سطر آخر من الكود.
بالتأكيد. هذا حل يتعامل فيه خادم الويب الخاص بك مع وكلاء مستخدم محددين بطريقة معينة. إنه هو نفسه تقريبًا ما وصفته أعلاه. إنه يعمل طالما أن الروبوت يعرف عن نفسه باستخدام وكيل مستخدم صحيح.