Discourse AI のオブザーバビリティ

LLM の監視と評価は極めて重要です。

私は5年前に、GitHub CoPilot の前身である CodeSearchNet を作成したチームを率いていたときに、言語モデルの作業を開始しました。それ以来、LLM 製品を構築するための多くの成功したアプローチと失敗したアプローチを見てきました。失敗した製品は、ほぼ常に共通の原因を共有していることに気づきました。それは、堅牢な評価システムを作成できなかったことです。

Discourse AI がビジネスで重要な LLM タスクをサポートする場合、LangSmith のような監視ツールのサポートを優先する必要があると思います。

LangSmith の使用は、yarn add langchain langsmith を実行し、いくつかの環境変数を追加するのと同じくらい簡単です。

Discourse チームは、LLM トレーシングをどのように設定できるかについて考えましたか? また、discourse-ai が公式にサポートする前に、これを実装する方法について何か考えはありますか?

「いいね!」 2

ははは、そうだったらいいのに。

LLM へのすべてのリクエストとレスポンスをテーブルに記録し、管理者が Data Explorer を介していつでもクエリできるようにします。すでに試されましたか?

{
  "max_tokens": 2000,
  "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
  "temperature": 0,
  "stop": [
    "\n</output>"
  ],
  "messages": [
    {
      "role": "system",
      "content": "あなたはマークダウン校正者です。ひどいタイプミスや言い回しの問題を修正しますが、ユーザーの元の声はそのままにします。\nコードブロックには触れません。校正するテキストを提供します。修正が必要ない場合は、テキストをそのまま返します。\nテキストは <input></input> XML タグの間にあります。\n常に修正されたテキストを <output></output> XML タグの間に返します。\n\n"
    },
    {
      "role": "user",
      "content": "<input>LLM へのすべてのリクエストとレスポンスをテーブルに記録し、管理者が Data Explorer を介していつでもクエリできるようにします。すでに試されましたか?</input>"
    }
  ]
}
{
  "id": "chat-45cd241b6e0f4a58840fcc9f49dfa56a",
  "object": "chat.completion",
  "created": 1722528517,
  "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "<output>LLM へのすべてのリクエストとレスポンスをテーブルに記録し、管理者が Data Explorer を介していつでもクエリできるようにします。すでに試されましたか?</output>",
        "tool_calls": []
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": null
    }
  ],
  "usage": {
    "prompt_tokens": 135,
    "total_tokens": 174,
    "completion_tokens": 39
  }
}

機能の評価の作成は、特に関連トピックと要約機能の微調整のために、3.4 のロードマップに確かに含まれています。

「いいね!」 1

それがすべてだとは言っていませんよ。(;wink:) でも、LLMの呼び出しはRubyから行われていると思うので、どうでもいいことでしょう。

まだ試していませんが、これは素晴らしいです。ありがとうございます!理論的には、これらをエクスポートして、評価や実験のためにLangSmithでプログラム的にトレースを作成できるでしょう。

「いいね!」 1