هل من الممكن تدريب الروبوت على بيانات مجتمعي، إذا أردت؟
لذلك، ستحتاج أولاً إلى الحصول على إذن من جميع أعضاء المجتمع لاستخدام كتاباتهم لهذا الغرض، وإلا فإنك تخاطر بتحمل مسؤولية قانونية، حيث تُقاضى بعض الشركات مثل Microsoft للقيام بذلك بالضبط دون إذن.
بشكل عام، يحاول مالكو المنتديات تأمين ترخيص ليبرالي للغاية على محتوى المستخدم. لست محاميًا، لكن هذا مجال مختلف تمامًا مقارنة بـ “زحف المعلومات على الإنترنت والتدريب عليها”.
بغض النظر، هناك تحديات كبيرة هنا:
- الضبط الدقيق متاح فقط على نماذج 3.5 (ضمن نظام OpenAI البيئي).
- إذا قمت بالضبط الدقيق، يصبح النموذج أكثر تكلفة بكثير لكل استدعاء.
- الضبط الدقيق لتحقيق قيمة حقيقية صعب للغاية ويتطلب جهدًا ضخمًا في التنظيم. شعوري هو أنه لن يقترب من أداء RAG[1].
لذلك، بينما هو ممكن، لا يُنصح به.
(GPT-4) “RAG” في هذا السياق تعني توليد معزز بالاسترجاع. إنها تقنية تستخدم غالبًا في التعلم الآلي، وبشكل أكثر تحديدًا، في تدريب نماذج الذكاء الاصطناعي مثل روبوتات الدردشة.
يجمع RAG بين فوائد كل من النماذج المستندة إلى الاسترجاع والنماذج التوليدية. بمعنى آخر، يستخدم قاعدة بيانات للاستجابات الموجودة مسبقًا (الاسترجاع) ويعززها بالقدرة على إنشاء استجابات جديدة من الصفر. عادةً ما يؤدي هذا المزيج إلى تحسين الأداء حيث يمكن للنظام استخلاص حقائق دقيقة من مكتبته والتعبير عنها بجمل جديدة ومتماسكة.
في المحادثة، يقترح المستخدم أن الضبط الدقيق لنموذج الذكاء الاصطناعي لمجموعة معينة من بيانات المجتمع قد لا يحقق نفس مستوى الأداء مثل استخدام نموذج توليد معزز بالاسترجاع، مما يعني أن نموذج RAG أكثر كفاءة ويؤدي إلى استجابات ذات جودة أعلى. ↩︎
الضبط الدقيق ليس طريقة فعالة لإضافة محتوى جديد إلى نموذج. إنه مفيد لتدريب النماذج على إنتاج مخرجات بتنسيقات مختلفة، أو تحقيق أداء أعلى في مهام محددة (مثل التصنيف، استخراج المحتوى)، ولكنه ليس من الممكن إضافة محتوى.
أفضل طريقة للتفكير في الأمر هي أنه يمكنك الضبط الدقيق لتعليم النموذج حيلًا جديدة، ولكن ليس حقائق جديدة. إذا كنت ترغب في تقليل الهلوسة أو تقديم محتوى جديد، فإن RAG هو الحل المناسب.
لم يجب أحد على السؤال في الواقع. بافتراض أن لديك الحق في استخدام بيانات المجتمع، كيف ستقوم بتدريب روبوت ذكاء اصطناعي بها؟
عرّف ما تقصده بـ “تدريب”؟
قم بضبط نموذج معين (gpt 3.5 أو llama) ثم استضف نموذجًا مخصصًا
أم تقصد جعله بحيث يكون الروبوت على دراية بالمحتوى الموجود في المنتدى؟
إذا كنت تريد فقط الوعي، فهذا متاح الآن
إذا كنت تريد نموذجًا مضبوطًا، فعليك توظيف فريق ذكاء اصطناعي
ما هو الجزء الكبير من الاستجابة الذي كان
- مثال على الهلوسة
- يعتمد على الذكاء الاصطناعي/النموذج (استضافة ذاتية باهظة الثمن تختلف كثيرًا عن مجرد نموذج OpenAI باهظ الثمن)
هل يمكنني إخبار روبوت الذكاء الاصطناعي باستخدام مصدر بيانات محدد لـ RAG، بالإضافة إلى المنتدى بأكمله؟ لدي قاعدة بيانات مسطحة (يمكنني تحويلها إلى csv) ستكون نقطة انطلاق جيدة للعديد من أسئلة روبوت الذكاء الاصطناعي، ثم يمكنه استخدام RAG لبقية المنتدى حسب الحاجة. لا أريد نشر ملف csv على المنتدى.
ربما يمكنك وضع بيانات CSV في مكان يمكن للذكاء الاصطناعي رؤيته ولا يمكن للمستخدمين العاديين رؤيته. (قد يكون هذا مستحيلاً أو فكرة سيئة للغاية، ولكنه قد ينجح).
نعم، يمكنك تحميل الملف مباشرة إلى شخصية.
يبدو هذا رائعًا، لكنني لا أرى كيفية التحميل إلى شخصية. أم يجب عليّ وضع رابط للملف في المطالبة النظامية للشخصية؟
عند الانتقال إلى المسؤول > الإضافات > الذكاء الاصطناعي > الشخصيات > شخصية جديدة، ستجد التحميلات في النهاية:
أيضًا، اعتمادًا على مقدار البيانات التي لديك في ملف CSV، يمكنك لصقها مباشرة في موجه النظام.
أنا أستخدم حاليًا أحدث إصدار، ولا أرى هذا الخيار أيضًا.
هل تم تكوين التضمين؟
تم تقسيم منشورين إلى موضوع جديد: Gemini Embeddings are not working

