GPT-4 مع الرؤية متاح

في إعدادات المكون الإضافي للذكاء الاصطناعي، يمكنني رؤية هذه القائمة من روبوتات الذكاء الاصطناعي التي يمكنني تمكينها:


أتساءل عما إذا كان روبوت gpt-4-turbo هو ‘gpt-4-turbo-preview’ أو ‘gpt-4-vision-preview’.
أي، هل لديه رؤية؟
إذا كان ‘gpt-4-turbo-preview’، فهل ستتم إضافة الرؤية أيضًا؟ أعتقد أنه سيكون مفيدًا نظرًا لأنه على سبيل المثال، يمكن لقطة الشاشة أن تساعد الروبوت على فهم استعلام المستخدم.

لا أعرف الإجابة، ومع ذلك فإن Vision هو نفسه 4، ولديه الكثير من المشاكل ويمكن أن يكون إشكاليًا. ولكن على حد علمي، يجب أن يكون هناك نموذج خاص لـ Vision ولا يستخدم Discourse أسلوب التسمية الخاص به.

للعلم، هذا مدعوم في Discourse Chatbot 🤖 (للوضع “الأساسي”)

إعجاب واحد (1)

(بدون RAG، مما يجعله عديم الأنياب إلى حد ما؛ وإلا فإنه يوفر الكثير من المرح)

إعجابَين (2)

يرجى الاتصال بـ سام ألتمان :phone: ، فهو بحاجة إلى إضافة وظائف إلى نموذج الرؤية.

3 إعجابات

في الوقت الحالي gpt-4-turbo == gpt-4-0125-preview أي لا توجد رؤية.

@keegan يستكشف بعض تكامل الرؤية هنا:

خاصة إضافة تسميات توضيحية للصور عبر واجهات برمجة تطبيقات الرؤية (نماذج مفتوحة ومغلقة على حد سواء)

أنا حقًا أحب قوة “العرض التوضيحي” لـ… بدء رسالة خاصة مع الروبوت، وتحميل صورة والسؤال عنها، ولكن أحتاج إلى التفكير في التدفق لأننا سنحتاج إلى التبديل بين النماذج.

ربما يمكن أن يعمل مفهوم “الأداة التلقائية” هنا، لذلك إذا رأينا تحميلًا نقوم بتوجيهه تلقائيًا إلى الأداة ثم العودة إلى النموذج الرئيسي… سأفكر في الأمر.

من الناحية الفنية، ربط هذا ليس معقدًا للغاية ضمن بنيتنا.

إعجابَين (2)

شكراً سام!

وفقًا لـ Vision - OpenAI API

الرؤية والـ turbo يجب أن يكونا متشابهين في الغالب (لست متأكدًا رغم ذلك، لم أختبر بشكل شامل بعد).

إعجاب واحد (1)