LLM 提示评估——很高兴知道

EricGT · 2025 年1 月 6 日 20:32

对于我们这些为大型语言模型（LLM）创建提示的人来说，了解我们的提示有多有效非常重要。

在大型语言模型（LLM）的行话中，这被称为evals，是“evaluations”（评估）的缩写。对于我们这些习惯于编程中的单元测试的人来说，这两者非常相似，我经常在脑海中将它们等同起来。

在OpenAI的12天活动期间，有人问了这个问题：

作为开发者，你们有哪些做得不如我们期望的？你们希望我们做得有什么不同，或者多做或少做些什么？

OpenAI的Michelle Pokrass在回复中说：

一个重要的问题是evals！我看到很多开发者根本不使用evals，而是依赖直觉来发布生产环境的更改。强烈建议使用我们的evals产品（或开源产品）创建一些简单的evals，这样在模型发布新模型时，您就可以自信地进行更新。

在Twitter上，AnthropicAI的Amanda Askell @ 指出：

好的系统提示背后枯燥但至关重要的秘密是测试驱动开发。你不是写下系统提示然后想办法测试它。你写下测试，然后找到一个能通过这些测试的系统提示。

许多人不知道，现在模型创建者们开始关注帮助最终用户评估其提示的工具。

OpenAI Playground：
https://platform.openai.com/docs/guides/evals
注意：这是新功能，并且在OpenAI Playground中，这与我们在OpenAI GitHub（evals）中看到的多年来的evals不同。

Anthropic Console：

Microsoft .Net框架在Azure上：

披露：我没有使用过这些自动化评估，但我通过尝试不同的提示手动进行了许多简单的评估。这只会让事情变得更容易。

有关让另一个（最好是更大或更强大的）模型分析审查，而不是将模型输出与人类创建的输出进行比较的方法的更多详细信息，我推荐Colin Jarvis的这节课。

供参考
我曾想添加一个evals标签，但我没有创建它的权限。

话题		回复	浏览量
Run Discourse AI evals Developer Guides ai	1	224	2025 年12 月 1 日
Observability for Discourse AI Feature ai , ai-bot	2	130	2024 年8 月 12 日
Prompt tools: funnel, orbit, and flux charts Feature ai , sql-query	0	93	2025 年4 月 16 日
Could every system prompt of AIs been editable? Feature ai , ai-helper	5	247	2024 年12 月 20 日
Best models and prompts for testing Discord search and Discoveries Support ai , ai-search	2	139	2025 年6 月 16 日