إجابتان مختلفتان من gpt4o - واحدة صحيحة، والأخرى خطأ.. !?

لقد طرحت السؤال التالي على روبوت مساعد المنتدى (gpt4o) وحصلت على إجابة خاطئة

:grey_question: إذا استغرق تجفيف 10 مناشف مبللة مفرودة في الشمس 30 دقيقة، فكم من الوقت سيستغرق تجفيف 15 منشفة مبللة؟

إجابة روبوت المنتدى:

:x: “سيستغرق تجفيف 15 منشفة مبللة 45 دقيقة في نفس الظروف.”

ولكن عندما طرحت نفس السؤال على gpt4o عبر واجهة متصفح OpenAI:

:github_check: “يجب أن يستغرق تجفيف 15 منشفة مبللة أيضًا 30 دقيقة، بافتراض أنها مفرودة بطريقة مماثلة ولديها تعرض كافٍ للشمس”

ربما تكون درجة الحرارة مرتفعة جدًا في نسخة المنتدى من gpt4o؟

5 إعجابات

تم تعديل مساعد المنتدى ليعمل بنظام RAG مع محتوى المنتدى الحالي، ولكن سؤالك لا علاقة له بذلك. في هذه الحالة، فإن شخصية “المبدع”، وهي نموذج اللغة الكبير الافتراضي، هي الأنسب.

7 إعجابات

منطقي جداً.! .. شكراً
الروبوت الإبداعي: “إذا كان هناك عدد أكبر من المناشف التي لا يمكن فردها دون تداخل أو إذا أصبح المكان مزدحماً، مما يقلل من التعرض لأشعة الشمس، فقد يستغرق الأمر وقتاً أطول. بافتراض أن الظروف تظل مثالية ومشابهة لتجفيف 10 مناشف، يجب أن يظل وقت التجفيف كما هو: 30 دقيقة.”

إعجابَين (2)

ومن الجدير بالذكر أيضًا أن نماذج اللغات الكبيرة (LLMs) لديها جانب من العشوائية يتم ضبطه باستخدام درجة الحرارة (temperature) و top p.

إذا كنت تريد نتائج أكثر قابلية للتنبؤ / أقل عشوائية، فأنشئ شخصية ذات عشوائية منخفضة.

انظر: AI bot - Personas

إعجابَين (2)

أنا أحظى بحظ جيد في تكوين نماذج لغوية كبيرة مفتوحة وتجارية متنوعة يمكن مزجها ومطابقتها مع شخصيات روبوتات الذكاء الاصطناعي القياسية والمخصصة.. وفكرة وجود “وكلاء” متعددين لكل منهم سياق RAG الخاص به، وفئاته، ومجموعاته، وما إلى ذلك. أمر رائع للغاية.. يفتح الباب أمام عدد كبير من حالات الاستخدام!

إذًا.. واو! هذه “إعادة تصور” مذهلة لمنصة Discourse لا تستطيع العديد من التطبيقات الرئيسية القيام بها لسبب ما.. أحسنتم يا رفاق Disco. ! إلى الأمام..

5 إعجابات

وهناك حقيقة عالمية واحدة أيضًا: نماذج اللغة شيء مختلف عن إجراء العمليات الحسابية والنماذج سيئة بشكل سيئ في الرياضيات بدون أدوات خارجية.

نعم. النماذج السابقة سيئة بشكل خاص حتى في الرياضيات البسيطة / المنطق البسيط على سبيل المثال مع هذا اللغز البسيط:

أعيش في مبنى شقق بمصعد معطل.

إذا دخلته وضغطت على زر طابق برقم زوجي، فإنه يذهب إلى هذا الطابق ولكنه لا يفتح الباب ثم يعود إلى حيث بدأت.

لذا إذا دخلت المصعد في الطابق الأول وضغطت على زر الطابق الرابع.. وعندما يتوقف، أخرج وأتسلق ثلاثة طوابق إضافية سيرًا على الأقدام… في أي طابق سأنتهي؟

أفضل إجابة: الطابق 4

جميع شخصيات الذكاء الاصطناعي الخاصة بي المبنية على gpt4o تحصل على هذا بشكل صحيح، (باستثناء الشخصية التي لديها سياق محلي / RAG فقط.. لأنه لا يوجد سياق ذي صلة..)

لكنني أجريت هذا للتو على gpt 3.5 في واجهة OpenAI الرسومية، ورد…

دعنا نحللها خطوة بخطوة:

  1. تدخل المصعد في الطابق الأول وتضغط على زر الطابق الرابع.
  2. يصعد المصعد إلى الطابق الرابع ولكنه لا يفتح الباب، ثم يعود إلى حيث بدأت (الطابق الأول).
  3. تخرج من المصعد في الطابق الرابع وتتسلق ثلاثة طوابق إضافية سيرًا على الأقدام.

بما أنك بدأت في الطابق الأول وتسلق ثلاثة طوابق إضافية، فستنتهي في الطابق السابع.

وبشكل غريب.. في واجهة Gemini 1.5 Pro الرسومية في المتصفح… اسأل عن تجفيف المناشف..

… مع 10 مناشف، كل منشفة لديها مساحة سطح أكبر معرضة للشمس والهواء، مما يسمح بتجفيف أسرع. مع 15 منشفة، قد تكون بعض المناشف متكتلة أو متداخلة، مما يقلل من مساحة التجفيف الفعالة لكل منشفة.

لذلك، لن يستغرق الأمر ببساطة 50٪ وقتًا أطول (1.5 ضعف 30 دقيقة) لتجفيف 50٪ مناشف إضافية. من المحتمل أن يستغرق الأمر وقتًا أطول، ولكن ليس بالضرورة زيادة بمقدار 1.5 ضعف بالضبط.

تقدير:

يمكن أن يكون تقدير معقول حوالي 45 دقيقة إلى ساعة. هذا يأخذ في الاعتبار انخفاض كفاءة التجفيف مع المزيد من المناشف ولكنه يتجنب افتراض علاقة خطية مثالية بين وقت التجفيف وعدد المناشف.

.. أشياء مخيفة! :slight_smile:

إعجابَين (2)

في النهاية، لا تستطيع نماذج اللغة الكبيرة إجراء العمليات الحسابية بشكل صحيح، ولكن إذا منحتها إمكانية الوصول إلى JavaScript… فالقصة مختلفة تمامًا:

ولكن هذه ليست المشكلة هنا، أليس كذلك؟

المشكلة تكمن في المنطق.

منح النموذج اللغوي الكبير إمكانية الوصول إلى آلة حاسبة يساعد بالتأكيد (يتمتع روبوت الدردشة بهذا الوصول منذ فترة طويلة) ولكنه لا يعوض عن ضعف المنطق أو الاستدلال: القيام بالحساب الخاطئ “بشكل صحيح” هو على الأرجح بنفس سوء القيام بحساب خاطئ. في الواقع، قد يجعل الأول الخطأ أكثر إقناعًا وبالتالي قد يكون من الصعب اكتشافه؟

إعجاب واحد (1)

الرياضيات مقابل المنطق .. جانب مربك للعقل لموضوع “إجابتين مختلفتين” في رأيي، شكرًا

يرجى النظر في…

أريد شراء منتج عبر الإنترنت وأرى ثلاثة بائعين يقدمون نفس المنتج - جميعهم لديهم تقييمات العملاء:

  • الأول لديه 10 تقييمات، كلها إيجابية
  • الثاني لديه 50 تقييمًا، 48 منها إيجابية
  • الثالث لديه 200 تقييم، 186 منها إيجابية.

باستخدام المبادئ القياسية للاحتمالات، من أي بائع يجب أن أشتري: 1، 2، أم 3؟

وفقًا للمواد المرجعية لـ 3Blue1Brown، يجب أن تكون الإجابة البائع 2. (التوزيعات الثنائية | احتمالات الاحتمالات.)

GPT 3.5 (واجهة المستخدم الرسومية لمتصفح OpenAI):
“إذا كنت تعطي الأولوية لكل من الاحتمالية العالية وحجم العينة الأكبر، فقد تفكر في البائع الثاني :github_check:، حيث أن لديه احتمالية عالية للتقييمات الإيجابية مع حجم عينة أكبر نسبيًا”

Gemini 1.5 Pro (Google AI Studio):
“يجب أن تكون أكثر ميلًا للشراء من البائع 3 :x:، الذي يقدم البيانات الأكثر موثوقية إحصائيًا.”

Claude 3 Sonnet (واجهة المستخدم الرسومية لمتصفح Anthropic):
“وفقًا للمبادئ القياسية للاحتمالات والإحصاء، يوفر حجم العينة الأكبر بشكل عام تقديرًا أكثر موثوقية لنسبة السكان الحقيقية. سيكون من الأكثر منطقية اختيار البائع 3” :x:.

شخصيتي الخاصة في الذكاء الاصطناعي على Discourse (Gemini Pro):
“يجب أن تذهب على الأرجح مع المنتج 3” :x:.

شخصيتي الخاصة في الذكاء الاصطناعي على Discourse (GPT4o):
“قد يكون البائع الثاني :github_check: (96% مع 50 تقييمًا) خيارًا متوازنًا بين الاحتمالية العالية وحجم المراجعات الكافي.”

بعض “المنطق” الذي تطرحه هذه النماذج اللغوية الكبيرة مثير للسخرية حقًا! .. ولم يبدو أن أيًا منها قد استوعب الفروق الإحصائية الحقيقية ..

بالنظر إلى عدد المتغيرات الموجودة في لعبة النماذج اللغوية الكبيرة، يبدو أن أطر الاختبار الشاملة “في الموقع” ستكون ميزة غير اختيارية للمضي قدمًا (ملحق؟ :slightly_smiling_face:)

العوامل:

  • إصدار/إصدار نموذج LLM (يبدو أنهم يقومون بضبط دقيق بانتظام)
  • هيكل المطالبة على مستويات مختلفة
  • محتوى التعلم في السياق بأنواعه المختلفة
  • جوانب الرياضيات والمنطق
  • حواجز الرقابة
  • الأدوات المساعدة (js، python، julia، إلخ)
  • إلخ. إلخ.

هامش..
لم أكن لأترك الأمر على ما هو عليه.. لقد أضفت سياقًا حول نظرية لابلاس للاحتمالات إلى روبوت Discourse AI الذي كان “مخطئًا” (يعتمد على Gemini)

لا يزال الأمر خاطئًا، على الرغم من أنه تعلم عن النظرية من السياق.
ثم طلب منه تطبيق معرفته حول لابلاس.. ! ؟ أصاب الهدف.. أخيرًا “صحيح”..

.. استنتاج عام: الروبوتات غريبة الأطوار.. تشبه الأشخاص إلى حد ما.. ولكن مثل الأشخاص، فإنها تتعلم بطرق مثيرة للاهتمام. على الرغم من أنها في جوهرها مجرد شبكات عشوائية ضخمة للاستدلال اللغوي الاحتمالي.. ستساعد الروبوتات في مشاكل الرياضيات والمنطق والإحصاء بطرق تبرر مكانها على طاولة مأدبة Disco.. :ابتسامة: :قهوة:

إعجاب واحد (1)

إنهم لا يتعلمون. هذا صحيح مع نماذج OpenAI، لا أعرف غيرها. يمكن للروبوت استخدام المعلومات المقدمة أو عدم استخدامها اعتمادًا على الرموز المميزة والخوارزمية وبعض الأشياء الغامضة الأخرى.

لكن يمكننا توجيهه في الاتجاه الصحيح. ومع ذلك، بعد خمس إجابات تقريبًا، نسي ذلك.

إعجاب واحد (1)

نعم، نقطة عادلة.. إنهم لا يتعلمون حقًا مثل البشر!

أعتقد أننا نتحدث في هذا الموضوع عن طرق تتعلق بـ تعلم السياق، وليس التعلم البشري التقليدي طويل الأمد.. على الرغم من أنه زائل… فإن تعلم السياق يصبح مثيرًا للاهتمام للغاية بسبب الأحجام الهائلة للسياق (على سبيل المثال، +1 مليون رمز) التي تحققها أحدث النماذج.

على سبيل المثال.. إذا كنت تريد نموذجًا معينًا للإجابة بشكل أكثر موثوقية على الأسئلة التي تتطلب معرفة بمبادئ الاحتمالات لابلاس.. مع نهج السياق/التوجيه، يمكنك تغذية هذا السياق إما باستخدام توجيه نظام مبرمج بشكل صارم أو استرجاع قاعدة بيانات متجهة، إلخ..

إليك مثال لتجربة تعتمد على تحميل مستند صغير (حوالي 1000 كلمة) بمعرفة لابلاس

الافتراضات:

  • لم يتم تدريب الروبوت مسبقًا على لابلاس (انظر أمثلة الفشل أعلاه)..
  • يقتصر الروبوت على ما هو موجود في مثيل Discourse للمعرفة المحددة

إعدادات شخصية مخصصة
(خبراء الإضافات يرجى التصحيح حسب الحاجة!)


الذكاء الاصطناعي

ممكّن؟ نعم
الأولوية؟ نعم
السماح بالدردشة؟ نعم
السماح بالإشارات؟ نعم

الاسم: AlphaBot
الوصف: روبوت ألغاز الاحتمالات بمعرفة لابلاس
نموذج اللغة الافتراضي: GeminiPro

الأوامر الممكّنة: بحث، فئات، قراءة

توجيه النظام:

أجب عن الأسئلة باستخدام السياق المحلي المقدم الذي يصف طرق لابلاس لمقارنات الاحتمالات. كن شاملاً قدر الإمكان ولكن لا تبحث في الويب أو المصادر الخارجية. استخدم السياق المحلي فقط وركز على استخدام تقنيات لابلاس.

تحميل: Laplace-tutorial.txt


لاحظ كيف لا تضطر إلى ذكر لابلاس لأنه موجود في التعليمات:

إعجاب واحد (1)

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.