بالنسبة لأولئك منا الذين ينشئون مطالبات لنماذج اللغة الكبيرة (LLMs)، فإن فهم مدى فعالية مطالباتنا أمر مهم.
في لغة نماذج اللغة الكبيرة، يُعرف هذا باسم evals، وهو اختصار للتقييمات. بالنسبة لأولئك منا المعتادين على اختبارات الوحدة في البرمجة، فإن أوجه التشابه وثيقة للغاية لدرجة أنني غالبًا ما أساوي بينهما عقليًا.
خلال أيام OpenAI الـ 12، طُرح هذا السؤال:
ما الذي لا نفعله كمطورين بالقدر الذي تعتقدون أنه يجب علينا فعله؟ ماذا تتمنون لو فعلنا بشكل مختلف، أو أكثر أو أقل؟
أجابت ميشيل بوكراس من OpenAI ردت:
أحد الأمور الكبيرة هو التقييمات! أرى الكثير من المطورين لا يستخدمون التقييمات على الإطلاق ويعتمدون على الحدس عند طرح تغييرات في الإنتاج. أوصي بشدة بإنشاء بعض التقييمات البسيطة باستخدام منتج التقييمات الخاص بنا (أو العروض مفتوحة المصدر) حتى تتمكن من التحديث بثقة عند إصدار نماذج جديدة.
على تويتر، لاحظت أماندا أسكيل @AnthropicAI ملاحظات:
السر الممل ولكنه الحاسم وراء المطالبات النظامية الجيدة هو التطوير الموجه بالاختبار. أنت لا تكتب مطالبة نظامية وتجد طرقًا لاختبارها. أنت تكتب اختبارات وتجد مطالبة نظامية تجتازها.
ما لا يعرفه الكثيرون، وهو ما بدأ يكتسب زخمًا الآن مع منشئي نماذج نماذج اللغة الكبيرة، هي الأدوات لمساعدة المستخدمين النهائيين على تقييم مطالباتهم.
منصة OpenAI:
https://platform.openai.com/docs/guides/evals
ملاحظة: هذا جديد وفي منصة OpenAI، هذه ليست التقييمات التي رأيناها لسنوات في مستودع OpenAI على GitHub (evals)
وحدة تحكم Anthropic:
إطار عمل Microsoft .Net على Azure:
إفصاح: لم أستخدم أيًا من هذه التقييمات الآلية، لكنني أجريت العديد من التقييمات الأبسط يدويًا عن طريق تجربة مطالبات مختلفة. هذا سيجعل الأمر أسهل.
لمزيد من التفاصيل حول طريقة مطالبة نموذج آخر (أكبر أو أقوى بشكل مثالي) بتحليل مراجعة، بدلاً من مقارنة مخرجات النموذج بمخرجات تم إنشاؤها بواسطة الإنسان، أوصي بهذا الدرس من كولين جارفيس.
الدرس 6: Meta-prompting مع o1
جزء من دورة DeepLearning.AI: Reasoning with o1 - DeepLearning.AI
للعلم
أردت إضافة علامة evals، لكنني أفتقر إلى الإذن لإنشائها.