Для тех из нас, кто создаёт промпты для больших языковых моделей (LLM), понимание эффективности этих промптов имеет ключевое значение.
В терминологии LLM это называется evals (сокращение от evaluations — оценки). Для тех, кто привык к модульному тестированию в программировании, сходство настолько велико, что я часто мысленно приравниваю эти два понятия.
В ходе «12 дней OpenAI» был задан следующий вопрос:
Что мы, как разработчики, не делаем в той мере, в которой, по вашему мнению, должны? Что бы вы хотели, чтобы мы делали иначе, чаще или реже?
Мишель Покрасс из OpenAI ответила:
Одна из главных вещей — это evals! Я вижу множество разработчиков, которые вообще не используют evals и полагаются на интуицию при внедрении изменений в продакшн. Настоятельно рекомендую создать простые evals с помощью нашего продукта для оценок (или решений с открытым исходным кодом), чтобы вы могли обновляться с уверенностью при выпуске новых моделей.
В Twitter Аманда Аскелл (@AnthropicAI) отметила:
Скучный, но критически важный секрет хороших системных промптов — это разработка через тестирование (TDD). Вы не пишете системный промпт и затем ищете способы его протестировать. Вы сначала пишете тесты, а затем находите системный промпт, который их проходит.
Многие не знают, но сейчас инструменты, помогающие конечным пользователям оценивать свои промпты, начинают набирать популярность среди создателей моделей LLM.
OpenAI playground:
Примечание: Это новое решение в OpenAI playground, и оно отличается от тех evals, которые мы годами видели в репозитории OpenAI на GitHub (evals).
Anthropic console:
Microsoft .Net framework на Azure:
Раскрытие информации: Я не использовал ни одну из этих автоматизированных систем оценки, но проводил множество более простых оценок вручную, пробуя разные промпты. Эти инструменты просто сделают процесс проще.
Для получения более подробной информации о методе, при котором другой (в идеале более крупный или мощный) модель анализирует результаты вместо сравнения вывода модели с результатом, созданным человеком, рекомендую этот урок от Колина Джарвиса.
Урок 6: Метапромптинг с o1
в рамках курса DeepLearning.AI: Reasoning with o1 - DeepLearning.AI
FYI
Хотел добавить тег evals, но у меня нет прав для его создания.