LLMプロンプト評価 - 知っておくと便利

EricGT · 2025 年 1 月 6 日午後 8:32

LLM のプロンプトを作成する私たちにとって、プロンプトの効果を理解することは重要です。

LLM 用語では、これは evals、つまり評価の略として知られています。プログラミングにおける単体テストに慣れている私たちにとって、その類似性は非常に近いため、私はしばしば心の中で両者を同一視しています。

OpenAI の 12 日間に、この質問が尋ねられました。

開発者として、あなたが思っているほど私たちが行っていないことは何ですか？私たちがもっと違うこと、あるいはもっと多くまたは少なく行うべきだとあなたは望みますか？

OpenAI の Michelle Pokrass は次のように返信しました。

大きなものの一つは evals です！多くの開発者が evals をまったく使用せず、本番環境への変更のロールアウトに感覚に頼っているのを見かけます。新しいモデルをリリースする際に自信を持って更新できるように、evals 製品（またはオープンソースの提供物）を使用して簡単な evals を作成することを強くお勧めします。

Twitter では、AnthropicAI の Amanda Askell @AnthropicAI は次のように述べています。

優れたシステムプロンプトの背後にある、退屈ながらも重要な秘密はテスト駆動開発です。システムプロンプトを書き留めて、それをテストする方法を見つけるのではありません。テストを書き留めて、それらをパスするシステムプロンプトを見つけます。

多くの人が知らないこと、そして LLM モデル作成者の間で注目を集め始めているのは、エンドユーザーがプロンプトを評価するのに役立つツールです。

OpenAI Playground:
https://platform.openai.com/docs/guides/evals
注: これは新しく、OpenAI Playground にあるのは、長年 OpenAI GitHub (evals) で見てきた evals とは異なります。

Anthropic Console:

Microsoft .Net Framework on Azure:

開示: これらの自動評価のいずれも使用したことはありませんが、さまざまなプロンプトを試すことで、多くの簡単な評価を手動で行ってきました。これはそれを容易にするだけです。

人間の作成した出力と比較するのではなく、別の（理想的にはより大きく、より強力な）モデルにレビューを分析させる方法の詳細については、Colin Jarvis のこのレッスンをお勧めします。

レッスン 6: o1 を使用したメタプロンプティング
DeepLearning.AI のコースの一部: o1 を使用した推論 - DeepLearning.AI

FYI

evals タグを追加したかったのですが、作成する権限がありません。

トピック		返信	表示
Run Discourse AI evals Developer Guides	1	140	2025 年 12 月 1 日
Observability for Discourse AI Feature ai-bot , ai	2	116	2024 年 8 月 12 日
Prompt tools: funnel, orbit, and flux charts Feature ai , sql-query	0	77	2025 年 4 月 16 日
Could every system prompt of AIs been editable? Feature ai-helper , ai	5	172	2024 年 12 月 20 日
Best models and prompts for testing Discord search and Discoveries Support ai-search , ai	3	111	2025 年 6 月 16 日

LLMプロンプト評価 - 知っておくと便利

関連トピック