أتساءل عما إذا كان روبوت gpt-4-turbo هو ‘gpt-4-turbo-preview’ أو ‘gpt-4-vision-preview’.
أي، هل لديه رؤية؟
إذا كان ‘gpt-4-turbo-preview’، فهل ستتم إضافة الرؤية أيضًا؟ أعتقد أنه سيكون مفيدًا نظرًا لأنه على سبيل المثال، يمكن لقطة الشاشة أن تساعد الروبوت على فهم استعلام المستخدم.
لا أعرف الإجابة، ومع ذلك فإن Vision هو نفسه 4، ولديه الكثير من المشاكل ويمكن أن يكون إشكاليًا. ولكن على حد علمي، يجب أن يكون هناك نموذج خاص لـ Vision ولا يستخدم Discourse أسلوب التسمية الخاص به.
خاصة إضافة تسميات توضيحية للصور عبر واجهات برمجة تطبيقات الرؤية (نماذج مفتوحة ومغلقة على حد سواء)
أنا حقًا أحب قوة “العرض التوضيحي” لـ… بدء رسالة خاصة مع الروبوت، وتحميل صورة والسؤال عنها، ولكن أحتاج إلى التفكير في التدفق لأننا سنحتاج إلى التبديل بين النماذج.
ربما يمكن أن يعمل مفهوم “الأداة التلقائية” هنا، لذلك إذا رأينا تحميلًا نقوم بتوجيهه تلقائيًا إلى الأداة ثم العودة إلى النموذج الرئيسي… سأفكر في الأمر.
من الناحية الفنية، ربط هذا ليس معقدًا للغاية ضمن بنيتنا.