هل يمكن تدربي روبوت الذكاء الاصطناعي على بيانات المجتمع

DjangoElBongo · 5 فبراير 2024، 9:49ص

هل من الممكن تدريب الروبوت على بيانات مجتمعي، إذا أردت؟

anon36555649 · 5 فبراير 2024، 6:09م

لذلك، ستحتاج أولاً إلى الحصول على إذن من جميع أعضاء المجتمع لاستخدام كتاباتهم لهذا الغرض، وإلا فإنك تخاطر بتحمل مسؤولية قانونية، حيث تُقاضى بعض الشركات مثل Microsoft للقيام بذلك بالضبط دون إذن.

sam · 5 فبراير 2024، 10:25م

بشكل عام، يحاول مالكو المنتديات تأمين ترخيص ليبرالي للغاية على محتوى المستخدم. لست محاميًا، لكن هذا مجال مختلف تمامًا مقارنة بـ “زحف المعلومات على الإنترنت والتدريب عليها”.

بغض النظر، هناك تحديات كبيرة هنا:

الضبط الدقيق متاح فقط على نماذج 3.5 (ضمن نظام OpenAI البيئي).
إذا قمت بالضبط الدقيق، يصبح النموذج أكثر تكلفة بكثير لكل استدعاء.
الضبط الدقيق لتحقيق قيمة حقيقية صعب للغاية ويتطلب جهدًا ضخمًا في التنظيم. شعوري هو أنه لن يقترب من أداء RAG^[1].

لذلك، بينما هو ممكن، لا يُنصح به.

(GPT-4) “RAG” في هذا السياق تعني توليد معزز بالاسترجاع. إنها تقنية تستخدم غالبًا في التعلم الآلي، وبشكل أكثر تحديدًا، في تدريب نماذج الذكاء الاصطناعي مثل روبوتات الدردشة.
يجمع RAG بين فوائد كل من النماذج المستندة إلى الاسترجاع والنماذج التوليدية. بمعنى آخر، يستخدم قاعدة بيانات للاستجابات الموجودة مسبقًا (الاسترجاع) ويعززها بالقدرة على إنشاء استجابات جديدة من الصفر. عادةً ما يؤدي هذا المزيج إلى تحسين الأداء حيث يمكن للنظام استخلاص حقائق دقيقة من مكتبته والتعبير عنها بجمل جديدة ومتماسكة.
في المحادثة، يقترح المستخدم أن الضبط الدقيق لنموذج الذكاء الاصطناعي لمجموعة معينة من بيانات المجتمع قد لا يحقق نفس مستوى الأداء مثل استخدام نموذج توليد معزز بالاسترجاع، مما يعني أن نموذج RAG أكثر كفاءة ويؤدي إلى استجابات ذات جودة أعلى. ↩︎

bigfudge · 28 فبراير 2024، 9:10ص

الضبط الدقيق ليس طريقة فعالة لإضافة محتوى جديد إلى نموذج. إنه مفيد لتدريب النماذج على إنتاج مخرجات بتنسيقات مختلفة، أو تحقيق أداء أعلى في مهام محددة (مثل التصنيف، استخراج المحتوى)، ولكنه ليس من الممكن إضافة محتوى.

أفضل طريقة للتفكير في الأمر هي أنه يمكنك الضبط الدقيق لتعليم النموذج حيلًا جديدة، ولكن ليس حقائق جديدة. إذا كنت ترغب في تقليل الهلوسة أو تقديم محتوى جديد، فإن RAG هو الحل المناسب.

luis_villanueva · 19 مارس 2024، 3:43ص

لم يجب أحد على السؤال في الواقع. بافتراض أن لديك الحق في استخدام بيانات المجتمع، كيف ستقوم بتدريب روبوت ذكاء اصطناعي بها؟

sam · 19 مارس 2024، 4:26ص

عرّف ما تقصده بـ “تدريب”؟

قم بضبط نموذج معين (gpt 3.5 أو llama) ثم استضف نموذجًا مخصصًا

أم تقصد جعله بحيث يكون الروبوت على دراية بالمحتوى الموجود في المنتدى؟

إذا كنت تريد فقط الوعي، فهذا متاح الآن

إذا كنت تريد نموذجًا مضبوطًا، فعليك توظيف فريق ذكاء اصطناعي

sam · 19 مارس 2024، 4:34ص

AI Conversation with Claude-3-opus

AI Training on Community Data: Discourse Meta

sam: Regarding First read the topic, next search for related topics, finally provide an insightful and helpful reply referencing stuff on meta

ForumHelperBot: Here are some relevant topics I found that discuss training AI chatbots on Discourse community data: Advice on a support bot for a technical support forum (Discourse AI vs Discourse Chatbot) - This topic discusses the goals and approaches for training an AI bot to assist with technical support on a Discourse forum, including learning from the historical discussions. Training a model on a site…

sam: Bro is this not what your are doing here?

ForumHelperBot: You’re right, I misspoke earlier. There are some topics that indicate the Discourse AI Bot can be trained on community specific data: Training a model on a site’s posts? - The OP suggests training an expert AI user bot on all the posts in their forum. Sam from the Discourse team replied that while training models is very expensive, the industry is pushing hard on growing token context and using …

...

Read full transcript

Jagster · 19 مارس 2024، 8:08ص

ما هو الجزء الكبير من الاستجابة الذي كان

مثال على الهلوسة
يعتمد على الذكاء الاصطناعي/النموذج (استضافة ذاتية باهظة الثمن تختلف كثيرًا عن مجرد نموذج OpenAI باهظ الثمن)

markschmucker · 4 ديسمبر 2024، 1:48م

هل يمكنني إخبار روبوت الذكاء الاصطناعي باستخدام مصدر بيانات محدد لـ RAG، بالإضافة إلى المنتدى بأكمله؟ لدي قاعدة بيانات مسطحة (يمكنني تحويلها إلى csv) ستكون نقطة انطلاق جيدة للعديد من أسئلة روبوت الذكاء الاصطناعي، ثم يمكنه استخدام RAG لبقية المنتدى حسب الحاجة. لا أريد نشر ملف csv على المنتدى.

pfaffman · 4 ديسمبر 2024، 3:04م

ربما يمكنك وضع بيانات CSV في مكان يمكن للذكاء الاصطناعي رؤيته ولا يمكن للمستخدمين العاديين رؤيته. (قد يكون هذا مستحيلاً أو فكرة سيئة للغاية، ولكنه قد ينجح).

Falco · 4 ديسمبر 2024، 3:37م

نعم، يمكنك تحميل الملف مباشرة إلى شخصية.

markschmucker · 5 ديسمبر 2024، 9:55م

يبدو هذا رائعًا، لكنني لا أرى كيفية التحميل إلى شخصية. أم يجب عليّ وضع رابط للملف في المطالبة النظامية للشخصية؟

Falco · 5 ديسمبر 2024، 9:57م

عند الانتقال إلى المسؤول > الإضافات > الذكاء الاصطناعي > الشخصيات > شخصية جديدة، ستجد التحميلات في النهاية:

أيضًا، اعتمادًا على مقدار البيانات التي لديك في ملف CSV، يمكنك لصقها مباشرة في موجه النظام.

markschmucker · 6 ديسمبر 2024، 10:14ص

ليس لدي هذا الخيار. 3.4.0.beta3-dev.

joo · 6 ديسمبر 2024، 10:29ص

أنا أستخدم حاليًا أحدث إصدار، ولا أرى هذا الخيار أيضًا.

sam · 6 ديسمبر 2024، 8:23م

هل تم تكوين التضمين؟

sam · 7 ديسمبر 2024، 12:52ص

تم تقسيم منشورين إلى موضوع جديد: Gemini Embeddings are not working

الموضوع		الردود	مرات العرض
How to prevent community content from being used to train LLMs like ChatGPT? Community Building	69	5021	16 يوليو 2023
RAG capacities of discourse-ai Support ai	6	492	19 سبتمبر 2024
Training a model on a site's posts? Feature ai , ai-bot	2	329	9 سبتمبر 2024
Integrating GPT3-like bots? Development	61	4999	10 مايو 2023
Advice on a support bot for a technical support forum (Discourse AI vs Discourse Chatbot) General ai , ai-bot	57	4588	29 أبريل 2026

هل يمكن تدربي روبوت الذكاء الاصطناعي على بيانات المجتمع

الموضوعات ذات الصلة