يعد رصد وتقييم نماذج اللغة الكبيرة أمرًا بالغ الأهمية:
بدأت العمل مع نماذج اللغة قبل خمس سنوات عندما كنت أقود الفريق الذي أنشأ CodeSearchNet، وهو سلف لـ GitHub CoPilot. منذ ذلك الحين، رأيت العديد من الأساليب الناجحة وغير الناجحة لبناء منتجات نماذج اللغة الكبيرة. لقد وجدت أن المنتجات غير الناجحة تشترك دائمًا تقريبًا في سبب جذري مشترك: الفشل في إنشاء أنظمة تقييم قوية.
إذا كان Discourse AI سيمكّن مهام نماذج اللغة الكبيرة الهامة للأعمال، أعتقد أنه يجب إعطاء الأولوية لدعم أدوات المراقبة مثل LangSmith.
يعد استخدام LangSmith بسيطًا مثل تشغيل yarn add langchain langsmith وإضافة بعض متغيرات البيئة.
هل فكر فريق Discourse في كيفية تكوين تتبع نماذج اللغة الكبيرة؟ وأيضًا، أي أفكار حول كيفية تنفيذ ذلك قبل أن يدعم discourse-ai رسميًا؟
{
"max_tokens": 2000,
"model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
"temperature": 0,
"stop": [
"\n</output>"
],
"messages": [
{
"role": "system",
"content": "أنت مدقق لغوي لـ markdown. تقوم بتصحيح الأخطاء المطبعية الفادحة ومشكلات الصياغة ولكنك تحتفظ بصوت المستخدم الأصلي.\nأنت لا تلمس كتل التعليمات البرمجية. سأقدم لك نصًا للمراجعة. إذا لم يكن هناك شيء يحتاج إلى إصلاح، فستعيد النص.\nستجد النص بين علامتي XML <input></input>.\nستعيد دائمًا النص المصحح بين علامتي XML <output></output>.\n\n"
},
{
"role": "user",
"content": "<input>We log every single request and response to LLMs in a table, and allow admins to query those at any time via Data Explorer. Have you tried already?</input>"
}
]
}
{
"id": "chat-45cd241b6e0f4a58840fcc9f49dfa56a",
"object": "chat.completion",
"created": 1722528517,
"model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "<output>We log every single request and response to LLMs in a table, and allow admins to query those at any time via Data Explorer. Have you tried this already?</output>",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"usage": {
"prompt_tokens": 135,
"total_tokens": 174,
"completion_tokens": 39
}
}
إن إنشاء تقييمات لميزاتنا بالتأكيد على خارطة طريقنا للإصدار 3.4، خاصة لتعديل ميزات المواضيع ذات الصلة والتلخيص لدينا.