كيفية منع استخدام محتوى المجتمع في تدريب نماذج اللغات الكبيرة مثل ChatGPT

agemo · 15 يوليو 2023، 7:02م

نعم، هذه نقطة بلاغية واسعة جدًا وأعتقد أنك أغفلت المغزى.

دعني أخاطر وأقول إن عمليتك المنطقية أجريت في وقت كان سابقًا للإصدار الحالي من الذكاء الاصطناعي/ChatGPT، وكان ذلك هو الوضع الطبيعي القديم الذي كان يسود.

الأشخاص في نفس المجال اليوم لديهم هذا العرض الجديد الجديد الذي يلفت الانتباه ويغير النموذج (الذكاء الاصطناعي) الذي يبدو أنه يعد بعامل إكس لا نهائي من حيث الإمكانيات والعواقب، على حد سواء.

جميع الأنشطة والافتراضات السابقة التي أدت إلى قرارات سابقة تصبح لاغية وباطلة إذا كان الذكاء الاصطناعي قد وصل إليها جميعًا، وهناك ما يكفي مما تم العثور عليه بشكل قصصي عبر الإنترنت للإشارة إلى أن كشط البيانات لتغذية الذكاء الاصطناعي مستمر منذ 3 أو ربما 5 سنوات أو أكثر، في حالة DeepMind ربما في وقت مبكر من عام 2014 عندما استحوذت عليها Google (ربما يمكن لتحليل الطب الشرعي لعينات السجلات أن يثبت ذلك، أو ربما تم إخفاؤه لمنع ذلك). إذا أخذت هذا في الاعتبار على أنه صحيح نسبيًا، يمكنك رؤية أن المشكلة صارخة في أوقات القيادة الفنية.

قد تكون جميع المحتويات قد تم كشطها وأن الأوان قد فات، لكنني أخذت ذلك في الاعتبار في مخاوفي وتمثيلاتي، وأنا فقط أشير إلى ذلك هنا، لأنه كما ذكرت، لا يوجد حل آلة زمن هنا، فقط قوة التبصر لإبلاغ الحلول الحالية والمستقبلية.

Ed_S · 15 يوليو 2023، 7:06م

عذرًا، لم أفهم أيًا من ذلك.

agemo · 15 يوليو 2023، 7:11م

كانت دلالة السؤال هي وجود خيار جديد مقنع في المدينة يُنظر إليه على أنه حل فوق كل الحلول للعديد من الاحتياجات، وهو الذكاء الاصطناعي (تقنية مدعومة بـ ChatGPT).

Ed_S · 15 يوليو 2023، 7:24م

هل تقول إنه لا أحد سيختار إنشاء منتدى لأن نماذج اللغة الكبيرة تقدم للناس كل ما يريدونه من المنتديات؟ (هذا ليس موضوع هذا الخيط، بالمناسبة.)

(إذا كنت تريد من الناس أن يفعلوا شيئًا لك، أعتقد أنك بحاجة إلى أن تكون واضحًا فيما تعتقد أنه المشكلة، وماذا تعتقد أنهم يمكنهم فعله من أجلك. أرى أنك تهتم بعمق، لكنني لا أعرف ما تريده. كما هو الحال مع أي شخص، لدي وقت وطاقة محدودان، لذلك لن أبذل جهدًا كبيرًا في فهم أفكارك.)

تعديل للإضافة:
[details=“الملخص الحالي لـ "الذكاء الاصطناعي" لهذا الخيط، من أجل البقاء”]

يدور نقاش منتدى حول منع استخدام محتوى المجتمع لتدريب نماذج اللغة مثل ChatGPT حول جعل المحتوى خاصًا عن طريق طلب تسجيل الدخول، وحظر الكاشطات عبر robots.txt أو إعدادات مستخدمي زاحف الحظر في Discourse، أو إزالة الموقع من الإنترنت المفتوح تمامًا. بينما يختلف البعض مع منع استخدام البيانات العامة ويعتقدون أنه جزء لا مفر منه من التقدم، يجادل آخرون بأن منشئي المحتوى يجب أن يكون لديهم المزيد من التحكم في كيفية استخدام أعمالهم. يستكشف النقاش القضايا الفلسفية المتعلقة بملكية المعلومات والإبداع بالإضافة إلى تقديم نصائح عملية للتخفيف من استخدام البيانات بواسطة أنظمة الذكاء الاصطناعي.
[/details]

agemo · 15 يوليو 2023، 7:40م

فجأة هناك سبب جديد لعدم اختيار الطرق القديمة يصعب على معظم الناس مقاومته.

أنا لست صاحب المنشور الأصلي ولكني أتعاطف مع صاحب المنشور الأصلي أكثر الآن.

خذ صاحب المنشور الأصلي على محمل الجد، وهو ما لم يفعله أحد،

و

السبب، مع كل الأحداث من هذا القبيل، هو أن لها تداعيات إيجابية وسلبية عميقة، ولا أعتقد أو أكتشف أي اعتراف جاد بالجوانب السلبية، وتحيز نحو الجوانب الإيجابية المتصورة، وبالتالي لا يوجد نشاط لتقييم وتخفيف، أي دعم المتضررين ولكن على مستوى المنصة.

مرة أخرى، أنا لست صاحب المنشور الأصلي ولكن مشكلة صاحب المنشور الأصلي هي مشكلة كل الخطابات (التي تواجه الجمهور). إنها أيضًا تهديد وجودي منهجي للشبكة، وهي مستقلة عن المنصة، أو

إنها ليست أكثر من “ألعاب جديدة رائعة” للعب بها بشكل عملي.

الأخيرة ليست جادة في السياق. إنها عمياء عن قصد. شخصيًا أجدها غير مسؤولة. وهذا ما يجعل نموذج الذكاء الاصطناعي أكثر خطورة.

المواضيع الفردية لن تحل هذا، إنها القيادة. بدأت بـ @ sam و @ codinghorror وعندما بدأت كارثة الإشراف بأكملها، تم القيام بها مرة واحدة ولم يتم إساءة استخدامها، ولكن كما تعلمون، يعتقد الآخرون بشكل أفضل، ويعرفون الأفضل، انتظروا حتى يتغلغل الذكاء الاصطناعي حقًا. :وجه_يذوب:

خلاصة القول: يجب أخذ هذه القضية على محمل الجد.

لذلك قد تحتاج إلى فئة خاصة بها. إنها بهذا الحجم.

agemo · 15 يوليو 2023، 9:23م

حتى الآن، بخلاف الحل الذي ليس حلاً بل تراجعًا، إذا كانت الاستراتيجية هي قفل الباب باستخدام - login_required (إعداد)، فعندئذٍ في هذا السيناريو، للتخفيف من آثار حركة المرور السلبية، إذا كنت تعتمد على حركة مرور البحث، فيجب أن يكون هناك شيء يمكن رؤيته ولكن ليس كل شيء.

واجهة ووردبريس الأمامية / موقع Discourse يتطلب تسجيل الدخول
(مزيد من العمل، وتكاليف استضافة أعلى، ودعم، إلخ)

الأشياء التي قد تساعد أيضًا ولكنها لم تُبنى مع مراعاة هذه المشكلة بالضبط:

الصفحات المنشورة إذا تم تطويرها مع صفحة قائمة مخصصة، وبعض الخيارات للتكوين، يمكن أن تعمل كصفحة هبوط انتقالية حيث يمكن للمستخدمين رؤية بعض المحتوى العام العام مع مطالبة بالتسجيل لقراءة المزيد

– السماح بقائمة الصفحات المنشورة في صفحتها الخاصة /pub (اجعلها الصفحة الرئيسية)
– السماح بقائمة الصفحات المنشورة في صفحة login_require
– السماح بفئة مخصصة أو أحدث في صفحة login_required

لقد وجدت الصفحات المنشورة فقط قبل يومين كميزة أثناء محاولة إيجاد حل لهذه المشكلة، وأتذكر أنه حتى قبل معضلة الذكاء الاصطناعي، طلب المستخدمون السابقون ميزة قائمة مماثلة للصفحات المنشورة.

معالجة أكثر قابلية للتكوين للصفحات المنشورة هي في رأيي أكثر تفضيلاً من إضافة واجهة ووردبريس أمامية كاملة، إذا كنت بحاجة إلى حل نقطة اتصال تواجه الجمهور.

قائمة الموضوع، المنشور الأول فقط

عرض المنشور الأول فقط لأي موضوع ويتطلب تسجيل الدخول لقراءة التعليقات. لقد رأيت اقتراحًا مشابهًا مرة واحدة على الأقل وتم رفضه، ولكن في هذا السياق، يتطلب الأمر إعادة تقييم.

ضع في اعتبارك أيضًا هذه الاقتراحات كقائمة غير مكتملة، ومجرد “ضمادات” محتملة لجزء من المشكلة، وليس كلها.

في غضون ذلك، سأعود إلى ترويع هذا الموضوع بالكثير من المشاعر How are we all feeling about ChatGPT and other LLMs and how they'll impact forums?

simon · 15 يوليو 2023، 9:28م

من ردك الأخير، أرى أننا نصل إلى استنتاج متقارب جدًا بشأن التعامل مع المشكلة من خلال مزيج من المحتوى العام والخاص. لقد كتبت المنشور أدناه قبل قراءة ردك. سأنشره على أي حال لمحاولة المساعدة في تقديم الحجة.

آخذ المنشور الأصلي على محمل الجد، سواء لأنه يطرح سؤالًا مشروعًا، أو لأنني قد أشارك مؤلفه قلقًا بشأن كيفية تأثير نماذج اللغات الكبيرة (LLMs) على الإنترنت. إذا فهمت مخاوفك بشكل صحيح، أعتقد أنني أتفق معك في أننا نشهد تغييرًا جوهريًا في كيفية عمل الإنترنت - فبدلاً من أن يزور الناس المواقع مباشرة، ستصبح نماذج اللغات الكبيرة الواجهة المفضلة للتفاعل مع الجزء العام من الإنترنت. هناك كل أنواع التداعيات التي ربما لا يمكن التعامل معها بشكل مفيد هنا.

ما يمكن معالجته هنا هو مسألة كيفية منع استخدام محتوى Discourse لتدريب نماذج اللغات الكبيرة. يوفر Discourse بعض الأساليب الممكنة.

النهج الأول ضعيف - حافظ على الموقع عامًا وحاول حظر أي وكلاء مستخدمين يتم استخدامهم لكشط البيانات باستخدام إعداد الموقع blocked crawler user agents. بالإضافة إلى القيام بذلك، يمكنك المشاركة في تحديات قانونية ضد شركات التكنولوجيا التي تقوم بكشط البيانات.

النهج الأقوى هو جعل موقعك خاصًا بالكامل، أو أجزاء منه. يمكن القيام بذلك باستخدام إعداد الموقع login required، أو باستخدام إعدادات أمان الفئة.

الاعتراض الرئيسي الذي أراه على النهج المذكور أعلاه هو أن الناس يريدون أن تكون مواقعهم قابلة للاكتشاف بواسطة محركات البحث. أشك في وجود طرق للتعامل مع هذا. الأسهل سيكون وجود مدونة عامة محسّنة لمحركات البحث (SEO)، مرتبطة بمنتدى Discourse خاص. حل أكثر تعقيدًا سيكون أن يوفر Discourse وظائف تسمح بأن يكون جزء من المنشور الأصلي للموضوع عامًا، بينما يمكن الوصول إلى الجزء الأكبر من الموضوع فقط من قبل أعضاء مجموعة Discourse. سيكون هذا مشابهًا لكيفية تعامل خدمات مثل Substack مع المحتوى المتاح فقط للمشتركين المدفوعين - فهم يعرضون بعض المحتوى الذي يمكن الوصول إليه من قبل المستخدمين المجهولين وزواحف الويب، ثم يعرضون دعوة للتسجيل:

لذا أعتقد أنه إلى جانب قلقي بشأن كيفية تأثير نماذج اللغات الكبيرة على الإنترنت، أرى فرصة للنظر في طرق جديدة لتمويل منشئي المحتوى.

anon65426961 · 15 يوليو 2023، 11:26م

أين يوجد هذا الإعداد؟

pfaffman · 15 يوليو 2023، 11:45م

سؤالك هو “لماذا سينتج أي شخص أي شيء يمكن وضعه على الإنترنت العام؟”

عندما تطرح السؤال على الإنترنت العام، لا يمكن لأي شخص يشاركك وجهة نظرك الإجابة على سؤالك.

sam · 16 يوليو 2023، 12:25ص

هذا الموضوع مرهق، الملخص المستند إلى الذكاء الاصطناعي يغطي الموضوع بشكل جيد، قم بالتمرير إلى الأعلى وانقر عليه

إغلاق لمدة 3 أشهر قادمة

sam · 14 أكتوبر 2023، 12:26ص

تم فتح هذا الموضوع تلقائيًا بعد 90 يومًا.

الموضوع		الردود	مرات العرض
What is stopping you from trying out Discourse AI? Community Building ai	35	2132	23 أغسطس 2025
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	102	9275	13 فبراير 2025
Discourse is Agent Ready: Here’s How Blog	9	634	24 مايو 2026
Forums that forbid AI content… How's it going? Community Building	23	713	13 يوليو 2026
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	34	1994	20 نوفمبر 2025

كيفية منع استخدام محتوى المجتمع في تدريب نماذج اللغات الكبيرة مثل ChatGPT

الموضوعات ذات الصلة