Оценка промптов LLM — полезно знать

Для тех из нас, кто создаёт промпты для больших языковых моделей (LLM), понимание эффективности этих промптов имеет ключевое значение.

В терминологии LLM это называется evals (сокращение от evaluations — оценки). Для тех, кто привык к модульному тестированию в программировании, сходство настолько велико, что я часто мысленно приравниваю эти два понятия.

В ходе «12 дней OpenAI» был задан следующий вопрос:

Что мы, как разработчики, не делаем в той мере, в которой, по вашему мнению, должны? Что бы вы хотели, чтобы мы делали иначе, чаще или реже?

Мишель Покрасс из OpenAI ответила:

Одна из главных вещей — это evals! Я вижу множество разработчиков, которые вообще не используют evals и полагаются на интуицию при внедрении изменений в продакшн. Настоятельно рекомендую создать простые evals с помощью нашего продукта для оценок (или решений с открытым исходным кодом), чтобы вы могли обновляться с уверенностью при выпуске новых моделей.

В Twitter Аманда Аскелл (@AnthropicAI) отметила:

Скучный, но критически важный секрет хороших системных промптов — это разработка через тестирование (TDD). Вы не пишете системный промпт и затем ищете способы его протестировать. Вы сначала пишете тесты, а затем находите системный промпт, который их проходит.

Многие не знают, но сейчас инструменты, помогающие конечным пользователям оценивать свои промпты, начинают набирать популярность среди создателей моделей LLM.

OpenAI playground:

Примечание: Это новое решение в OpenAI playground, и оно отличается от тех evals, которые мы годами видели в репозитории OpenAI на GitHub (evals).

Anthropic console:

Microsoft .Net framework на Azure:

Раскрытие информации: Я не использовал ни одну из этих автоматизированных систем оценки, но проводил множество более простых оценок вручную, пробуя разные промпты. Эти инструменты просто сделают процесс проще.


Для получения более подробной информации о методе, при котором другой (в идеале более крупный или мощный) модель анализирует результаты вместо сравнения вывода модели с результатом, созданным человеком, рекомендую этот урок от Колина Джарвиса.

Урок 6: Метапромптинг с o1
в рамках курса DeepLearning.AI: Reasoning with o1 - DeepLearning.AI


FYI

Хотел добавить тег evals, но у меня нет прав для его создания.

6 лайков