Оценка промптов LLM — полезно знать

EricGT · 06.Январь.2025 20:32:54

Для тех из нас, кто создаёт промпты для больших языковых моделей (LLM), понимание эффективности этих промптов имеет ключевое значение.

В терминологии LLM это называется evals (сокращение от evaluations — оценки). Для тех, кто привык к модульному тестированию в программировании, сходство настолько велико, что я часто мысленно приравниваю эти два понятия.

В ходе «12 дней OpenAI» был задан следующий вопрос:

Что мы, как разработчики, не делаем в той мере, в которой, по вашему мнению, должны? Что бы вы хотели, чтобы мы делали иначе, чаще или реже?

Мишель Покрасс из OpenAI ответила:

Одна из главных вещей — это evals! Я вижу множество разработчиков, которые вообще не используют evals и полагаются на интуицию при внедрении изменений в продакшн. Настоятельно рекомендую создать простые evals с помощью нашего продукта для оценок (или решений с открытым исходным кодом), чтобы вы могли обновляться с уверенностью при выпуске новых моделей.

В Twitter Аманда Аскелл (@AnthropicAI) отметила:

Скучный, но критически важный секрет хороших системных промптов — это разработка через тестирование (TDD). Вы не пишете системный промпт и затем ищете способы его протестировать. Вы сначала пишете тесты, а затем находите системный промпт, который их проходит.

Многие не знают, но сейчас инструменты, помогающие конечным пользователям оценивать свои промпты, начинают набирать популярность среди создателей моделей LLM.

OpenAI playground:

Примечание: Это новое решение в OpenAI playground, и оно отличается от тех evals, которые мы годами видели в репозитории OpenAI на GitHub (evals).

Anthropic console:

Microsoft .Net framework на Azure:

Раскрытие информации: Я не использовал ни одну из этих автоматизированных систем оценки, но проводил множество более простых оценок вручную, пробуя разные промпты. Эти инструменты просто сделают процесс проще.

Для получения более подробной информации о методе, при котором другой (в идеале более крупный или мощный) модель анализирует результаты вместо сравнения вывода модели с результатом, созданным человеком, рекомендую этот урок от Колина Джарвиса.

Урок 6: Метапромптинг с o1
в рамках курса DeepLearning.AI: Reasoning with o1 - DeepLearning.AI

FYI

Хотел добавить тег evals, но у меня нет прав для его создания.

Тема		Ответов	Просм.
Run Discourse AI evals Developer Guides ai	1	242	01.12.2025
Observability for Discourse AI Feature ai , ai-bot	2	144	12.08.2024
Prompt tools: funnel, orbit, and flux charts Feature ai , sql-query	0	101	16.04.2025
Could every system prompt of AIs been editable? Feature ai , ai-helper	5	283	20.12.2024
Best models and prompts for testing Discord search and Discoveries Support ai , ai-search	2	159	16.06.2025

Оценка промптов LLM — полезно знать

Связанные темы