تم تعديل مساعد المنتدى ليعمل بنظام RAG مع محتوى المنتدى الحالي، ولكن سؤالك لا علاقة له بذلك. في هذه الحالة، فإن شخصية “المبدع”، وهي نموذج اللغة الكبير الافتراضي، هي الأنسب.
منطقي جداً.! .. شكراً
الروبوت الإبداعي: “إذا كان هناك عدد أكبر من المناشف التي لا يمكن فردها دون تداخل أو إذا أصبح المكان مزدحماً، مما يقلل من التعرض لأشعة الشمس، فقد يستغرق الأمر وقتاً أطول. بافتراض أن الظروف تظل مثالية ومشابهة لتجفيف 10 مناشف، يجب أن يظل وقت التجفيف كما هو: 30 دقيقة.”
أنا أحظى بحظ جيد في تكوين نماذج لغوية كبيرة مفتوحة وتجارية متنوعة يمكن مزجها ومطابقتها مع شخصيات روبوتات الذكاء الاصطناعي القياسية والمخصصة.. وفكرة وجود “وكلاء” متعددين لكل منهم سياق RAG الخاص به، وفئاته، ومجموعاته، وما إلى ذلك. أمر رائع للغاية.. يفتح الباب أمام عدد كبير من حالات الاستخدام!
إذًا.. واو! هذه “إعادة تصور” مذهلة لمنصة Discourse لا تستطيع العديد من التطبيقات الرئيسية القيام بها لسبب ما.. أحسنتم يا رفاق Disco. ! إلى الأمام..
نعم. النماذج السابقة سيئة بشكل خاص حتى في الرياضيات البسيطة / المنطق البسيط على سبيل المثال مع هذا اللغز البسيط:
أعيش في مبنى شقق بمصعد معطل.
إذا دخلته وضغطت على زر طابق برقم زوجي، فإنه يذهب إلى هذا الطابق ولكنه لا يفتح الباب ثم يعود إلى حيث بدأت.
لذا إذا دخلت المصعد في الطابق الأول وضغطت على زر الطابق الرابع.. وعندما يتوقف، أخرج وأتسلق ثلاثة طوابق إضافية سيرًا على الأقدام… في أي طابق سأنتهي؟
أفضل إجابة: الطابق 4
جميع شخصيات الذكاء الاصطناعي الخاصة بي المبنية على gpt4o تحصل على هذا بشكل صحيح، (باستثناء الشخصية التي لديها سياق محلي / RAG فقط.. لأنه لا يوجد سياق ذي صلة..)
لكنني أجريت هذا للتو على gpt 3.5 في واجهة OpenAI الرسومية، ورد…
دعنا نحللها خطوة بخطوة:
تدخل المصعد في الطابق الأول وتضغط على زر الطابق الرابع.
يصعد المصعد إلى الطابق الرابع ولكنه لا يفتح الباب، ثم يعود إلى حيث بدأت (الطابق الأول).
تخرج من المصعد في الطابق الرابع وتتسلق ثلاثة طوابق إضافية سيرًا على الأقدام.
بما أنك بدأت في الطابق الأول وتسلق ثلاثة طوابق إضافية، فستنتهي في الطابق السابع.
وبشكل غريب.. في واجهة Gemini 1.5 Pro الرسومية في المتصفح… اسأل عن تجفيف المناشف..
… مع 10 مناشف، كل منشفة لديها مساحة سطح أكبر معرضة للشمس والهواء، مما يسمح بتجفيف أسرع. مع 15 منشفة، قد تكون بعض المناشف متكتلة أو متداخلة، مما يقلل من مساحة التجفيف الفعالة لكل منشفة.
لذلك، لن يستغرق الأمر ببساطة 50٪ وقتًا أطول (1.5 ضعف 30 دقيقة) لتجفيف 50٪ مناشف إضافية. من المحتمل أن يستغرق الأمر وقتًا أطول، ولكن ليس بالضرورة زيادة بمقدار 1.5 ضعف بالضبط.
تقدير:
يمكن أن يكون تقدير معقول حوالي 45 دقيقة إلى ساعة. هذا يأخذ في الاعتبار انخفاض كفاءة التجفيف مع المزيد من المناشف ولكنه يتجنب افتراض علاقة خطية مثالية بين وقت التجفيف وعدد المناشف.
منح النموذج اللغوي الكبير إمكانية الوصول إلى آلة حاسبة يساعد بالتأكيد (يتمتع روبوت الدردشة بهذا الوصول منذ فترة طويلة) ولكنه لا يعوض عن ضعف المنطق أو الاستدلال: القيام بالحساب الخاطئ “بشكل صحيح” هو على الأرجح بنفس سوء القيام بحساب خاطئ. في الواقع، قد يجعل الأول الخطأ أكثر إقناعًا وبالتالي قد يكون من الصعب اكتشافه؟
GPT 3.5 (واجهة المستخدم الرسومية لمتصفح OpenAI):
“إذا كنت تعطي الأولوية لكل من الاحتمالية العالية وحجم العينة الأكبر، فقد تفكر في البائع الثاني ، حيث أن لديه احتمالية عالية للتقييمات الإيجابية مع حجم عينة أكبر نسبيًا”
Gemini 1.5 Pro (Google AI Studio):
“يجب أن تكون أكثر ميلًا للشراء من البائع 3 ، الذي يقدم البيانات الأكثر موثوقية إحصائيًا.”
Claude 3 Sonnet (واجهة المستخدم الرسومية لمتصفح Anthropic):
“وفقًا للمبادئ القياسية للاحتمالات والإحصاء، يوفر حجم العينة الأكبر بشكل عام تقديرًا أكثر موثوقية لنسبة السكان الحقيقية. سيكون من الأكثر منطقية اختيار البائع 3” .
شخصيتي الخاصة في الذكاء الاصطناعي على Discourse (Gemini Pro):
“يجب أن تذهب على الأرجح مع المنتج 3” .
شخصيتي الخاصة في الذكاء الاصطناعي على Discourse (GPT4o):
“قد يكون البائع الثاني (96% مع 50 تقييمًا) خيارًا متوازنًا بين الاحتمالية العالية وحجم المراجعات الكافي.”
بعض “المنطق” الذي تطرحه هذه النماذج اللغوية الكبيرة مثير للسخرية حقًا! .. ولم يبدو أن أيًا منها قد استوعب الفروق الإحصائية الحقيقية ..
بالنظر إلى عدد المتغيرات الموجودة في لعبة النماذج اللغوية الكبيرة، يبدو أن أطر الاختبار الشاملة “في الموقع” ستكون ميزة غير اختيارية للمضي قدمًا (ملحق؟ )
العوامل:
إصدار/إصدار نموذج LLM (يبدو أنهم يقومون بضبط دقيق بانتظام)
.. استنتاج عام: الروبوتات غريبة الأطوار.. تشبه الأشخاص إلى حد ما.. ولكن مثل الأشخاص، فإنها تتعلم بطرق مثيرة للاهتمام. على الرغم من أنها في جوهرها مجرد شبكات عشوائية ضخمة للاستدلال اللغوي الاحتمالي.. ستساعد الروبوتات في مشاكل الرياضيات والمنطق والإحصاء بطرق تبرر مكانها على طاولة مأدبة Disco.. :ابتسامة: :قهوة:
إنهم لا يتعلمون. هذا صحيح مع نماذج OpenAI، لا أعرف غيرها. يمكن للروبوت استخدام المعلومات المقدمة أو عدم استخدامها اعتمادًا على الرموز المميزة والخوارزمية وبعض الأشياء الغامضة الأخرى.
لكن يمكننا توجيهه في الاتجاه الصحيح. ومع ذلك، بعد خمس إجابات تقريبًا، نسي ذلك.
أعتقد أننا نتحدث في هذا الموضوع عن طرق تتعلق بـ تعلم السياق، وليس التعلم البشري التقليدي طويل الأمد.. على الرغم من أنه زائل… فإن تعلم السياق يصبح مثيرًا للاهتمام للغاية بسبب الأحجام الهائلة للسياق (على سبيل المثال، +1 مليون رمز) التي تحققها أحدث النماذج.
على سبيل المثال.. إذا كنت تريد نموذجًا معينًا للإجابة بشكل أكثر موثوقية على الأسئلة التي تتطلب معرفة بمبادئ الاحتمالات لابلاس.. مع نهج السياق/التوجيه، يمكنك تغذية هذا السياق إما باستخدام توجيه نظام مبرمج بشكل صارم أو استرجاع قاعدة بيانات متجهة، إلخ..
إليك مثال لتجربة تعتمد على تحميل مستند صغير (حوالي 1000 كلمة) بمعرفة لابلاس
الافتراضات:
لم يتم تدريب الروبوت مسبقًا على لابلاس (انظر أمثلة الفشل أعلاه)..
يقتصر الروبوت على ما هو موجود في مثيل Discourse للمعرفة المحددة
إعدادات شخصية مخصصة
(خبراء الإضافات يرجى التصحيح حسب الحاجة!)
الاسم: AlphaBot
الوصف: روبوت ألغاز الاحتمالات بمعرفة لابلاس
نموذج اللغة الافتراضي: GeminiPro
الأوامر الممكّنة: بحث، فئات، قراءة
توجيه النظام:
أجب عن الأسئلة باستخدام السياق المحلي المقدم الذي يصف طرق لابلاس لمقارنات الاحتمالات. كن شاملاً قدر الإمكان ولكن لا تبحث في الويب أو المصادر الخارجية. استخدم السياق المحلي فقط وركز على استخدام تقنيات لابلاس.
تحميل: Laplace-tutorial.txt
لاحظ كيف لا تضطر إلى ذكر لابلاس لأنه موجود في التعليمات: