aas
1
LLM の監視と評価は極めて重要です。
私は5年前に、GitHub CoPilot の前身である CodeSearchNet を作成したチームを率いていたときに、言語モデルの作業を開始しました。それ以来、LLM 製品を構築するための多くの成功したアプローチと失敗したアプローチを見てきました。失敗した製品は、ほぼ常に共通の原因を共有していることに気づきました。それは、堅牢な評価システムを作成できなかったことです。
Discourse AI がビジネスで重要な LLM タスクをサポートする場合、LangSmith のような監視ツールのサポートを優先する必要があると思います。
LangSmith の使用は、yarn add langchain langsmith を実行し、いくつかの環境変数を追加するのと同じくらい簡単です。
Discourse チームは、LLM トレーシングをどのように設定できるかについて考えましたか? また、discourse-ai が公式にサポートする前に、これを実装する方法について何か考えはありますか?
「いいね!」 2
Falco
(Falco)
2
ははは、そうだったらいいのに。
LLM へのすべてのリクエストとレスポンスをテーブルに記録し、管理者が Data Explorer を介していつでもクエリできるようにします。すでに試されましたか?
{
"max_tokens": 2000,
"model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
"temperature": 0,
"stop": [
"\n</output>"
],
"messages": [
{
"role": "system",
"content": "あなたはマークダウン校正者です。ひどいタイプミスや言い回しの問題を修正しますが、ユーザーの元の声はそのままにします。\nコードブロックには触れません。校正するテキストを提供します。修正が必要ない場合は、テキストをそのまま返します。\nテキストは <input></input> XML タグの間にあります。\n常に修正されたテキストを <output></output> XML タグの間に返します。\n\n"
},
{
"role": "user",
"content": "<input>LLM へのすべてのリクエストとレスポンスをテーブルに記録し、管理者が Data Explorer を介していつでもクエリできるようにします。すでに試されましたか?</input>"
}
]
}
{
"id": "chat-45cd241b6e0f4a58840fcc9f49dfa56a",
"object": "chat.completion",
"created": 1722528517,
"model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "<output>LLM へのすべてのリクエストとレスポンスをテーブルに記録し、管理者が Data Explorer を介していつでもクエリできるようにします。すでに試されましたか?</output>",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"usage": {
"prompt_tokens": 135,
"total_tokens": 174,
"completion_tokens": 39
}
}
機能の評価の作成は、特に関連トピックと要約機能の微調整のために、3.4 のロードマップに確かに含まれています。
「いいね!」 1
aas
3
それがすべてだとは言っていませんよ。(;wink:) でも、LLMの呼び出しはRubyから行われていると思うので、どうでもいいことでしょう。
まだ試していませんが、これは素晴らしいです。ありがとうございます!理論的には、これらをエクスポートして、評価や実験のためにLangSmithでプログラム的にトレースを作成できるでしょう。
「いいね!」 1