Discourse AI のオブザーバビリティ

aas · 2024 年 7 月 12 日午後 4:00

LLM の監視と評価は極めて重要です。

私は5年前に、GitHub CoPilot の前身である CodeSearchNet を作成したチームを率いていたときに、言語モデルの作業を開始しました。それ以来、LLM 製品を構築するための多くの成功したアプローチと失敗したアプローチを見てきました。失敗した製品は、ほぼ常に共通の原因を共有していることに気づきました。それは、堅牢な評価システムを作成できなかったことです。

Discourse AI がビジネスで重要な LLM タスクをサポートする場合、LangSmith のような監視ツールのサポートを優先する必要があると思います。

LangSmith の使用は、yarn add langchain langsmith を実行し、いくつかの環境変数を追加するのと同じくらい簡単です。

Discourse チームは、LLM トレーシングをどのように設定できるかについて考えましたか? また、discourse-ai が公式にサポートする前に、これを実装する方法について何か考えはありますか?

Falco · 2024 年 8 月 1 日午後 4:10

ははは、そうだったらいいのに。

LLM へのすべてのリクエストとレスポンスをテーブルに記録し、管理者が Data Explorer を介していつでもクエリできるようにします。すでに試されましたか？

{
  "max_tokens": 2000,
  "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
  "temperature": 0,
  "stop": [
    "\n</output>"
  ],
  "messages": [
    {
      "role": "system",
      "content": "あなたはマークダウン校正者です。ひどいタイプミスや言い回しの問題を修正しますが、ユーザーの元の声はそのままにします。\nコードブロックには触れません。校正するテキストを提供します。修正が必要ない場合は、テキストをそのまま返します。\nテキストは <input></input> XML タグの間にあります。\n常に修正されたテキストを <output></output> XML タグの間に返します。\n\n"
    },
    {
      "role": "user",
      "content": "<input>LLM へのすべてのリクエストとレスポンスをテーブルに記録し、管理者が Data Explorer を介していつでもクエリできるようにします。すでに試されましたか？</input>"
    }
  ]
}

{
  "id": "chat-45cd241b6e0f4a58840fcc9f49dfa56a",
  "object": "chat.completion",
  "created": 1722528517,
  "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "<output>LLM へのすべてのリクエストとレスポンスをテーブルに記録し、管理者が Data Explorer を介していつでもクエリできるようにします。すでに試されましたか？</output>",
        "tool_calls": []
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": null
    }
  ],
  "usage": {
    "prompt_tokens": 135,
    "total_tokens": 174,
    "completion_tokens": 39
  }
}

機能の評価の作成は、特に関連トピックと要約機能の微調整のために、3.4 のロードマップに確かに含まれています。

aas · 2024 年 8 月 12 日午後 4:18

それがすべてだとは言っていませんよ。(;wink:) でも、LLMの呼び出しはRubyから行われていると思うので、どうでもいいことでしょう。

まだ試していませんが、これは素晴らしいです。ありがとうございます！理論的には、これらをエクスポートして、評価や実験のためにLangSmithでプログラム的にトレースを作成できるでしょう。

トピック		返信	表示
LLM prompt evals - Nice to know Community Building ai	0	134	2025 年 1 月 6 日
What LLM to use for Discourse AI? Site Management how-to , ai	0	759	2025 年 1 月 23 日
Run Discourse AI evals Developer Guides	1	138	2025 年 12 月 1 日
Discourse AI - Large Language Model (LLM) settings page Site Management ai , how-to	20	2995	2025 年 11 月 26 日
We need prompt chains: Allow custom AI persona tools to access LangChain.js and/or longer execution time Feature ai	5	162	2024 年 9 月 19 日