الرصد لـ Discourse AI

يعد رصد وتقييم نماذج اللغة الكبيرة أمرًا بالغ الأهمية:

بدأت العمل مع نماذج اللغة قبل خمس سنوات عندما كنت أقود الفريق الذي أنشأ CodeSearchNet، وهو سلف لـ GitHub CoPilot. منذ ذلك الحين، رأيت العديد من الأساليب الناجحة وغير الناجحة لبناء منتجات نماذج اللغة الكبيرة. لقد وجدت أن المنتجات غير الناجحة تشترك دائمًا تقريبًا في سبب جذري مشترك: الفشل في إنشاء أنظمة تقييم قوية.

إذا كان Discourse AI سيمكّن مهام نماذج اللغة الكبيرة الهامة للأعمال، أعتقد أنه يجب إعطاء الأولوية لدعم أدوات المراقبة مثل LangSmith.

يعد استخدام LangSmith بسيطًا مثل تشغيل yarn add langchain langsmith وإضافة بعض متغيرات البيئة.

هل فكر فريق Discourse في كيفية تكوين تتبع نماذج اللغة الكبيرة؟ وأيضًا، أي أفكار حول كيفية تنفيذ ذلك قبل أن يدعم discourse-ai رسميًا؟

إعجابَين (2)

هههههه، أتمنى ذلك.

نسجل كل طلب واستجابة إلى نماذج اللغة الكبيرة في جدول، ونسمح للمسؤولين بالاستعلام عنها في أي وقت عبر مستكشف البيانات. هل جربت هذا بالفعل؟

{
  "max_tokens": 2000,
  "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
  "temperature": 0,
  "stop": [
    "\n</output>"
  ],
  "messages": [
    {
      "role": "system",
      "content": "أنت مدقق لغوي لـ markdown. تقوم بتصحيح الأخطاء المطبعية الفادحة ومشكلات الصياغة ولكنك تحتفظ بصوت المستخدم الأصلي.\nأنت لا تلمس كتل التعليمات البرمجية. سأقدم لك نصًا للمراجعة. إذا لم يكن هناك شيء يحتاج إلى إصلاح، فستعيد النص.\nستجد النص بين علامتي XML <input></input>.\nستعيد دائمًا النص المصحح بين علامتي XML <output></output>.\n\n"
    },
    {
      "role": "user",
      "content": "<input>We log every single request and response to LLMs in a table, and allow admins to query those at any time via Data Explorer. Have you tried already?</input>"
    }
  ]
}
{
  "id": "chat-45cd241b6e0f4a58840fcc9f49dfa56a",
  "object": "chat.completion",
  "created": 1722528517,
  "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "<output>We log every single request and response to LLMs in a table, and allow admins to query those at any time via Data Explorer. Have you tried this already?</output>",
        "tool_calls": []
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": null
    }
  ],
  "usage": {
    "prompt_tokens": 135,
    "total_tokens": 174,
    "completion_tokens": 39
  }
}

إن إنشاء تقييمات لميزاتنا بالتأكيد على خارطة طريقنا للإصدار 3.4، خاصة لتعديل ميزات المواضيع ذات الصلة والتلخيص لدينا.

إعجاب واحد (1)

لم أقل أن هذا كل ما في الأمر. (:wink:) ولكن أعتقد أنه لا يهم بما أنني أعتقد أن استدعاءات LLM تتم من Ruby.

لم أفعل ذلك بعد، ولكن هذا رائع - شكرًا لك! نظريًا، يمكنني تصدير هذه وإنشاء تتبعات برمجيًا في LangSmith للتقييمات والتجارب.

إعجاب واحد (1)