Я действительно вижу, что настройка промптов может быть для нас полезной. Хотя недавно я немного занимался любительским «инжинирингом промптов» для другого проекта, я считаю, что новичкам потребуется некоторое руководство и множество примеров. Кроме того, интерфейс, вероятно, выиграл бы от наличия набора примеров или предустановленных вариантов, таких как «разговорный/веселый», «нейтральный/точный» и вплоть до «книжный/умный», чтобы показать, как формулировки персонажа могут влиять на ответы.
Я также обнаружил, что оценить влияние изменений в формулировках промпта довольно сложно из-за присущей моделям случайности, а также потому, что эффекты могут варьироваться в зависимости от тематики промпта. Было бы неплохо разработать стандартный набор тестовых пользовательских вводов и использовать их для предварительного просмотра того, как изменения в персонаже или инструкциях повлияют на вывод бота. Думаю, это было бы полезно и для вашей команды… хотя, когда набор тестов станет большим, возникнет проблема его оценки без больших затрат времени.
Еще одно измерение, которое, как мне кажется, пользователи часто захотят настраивать, — это насколько строго LLM придерживается исходных материалов, предоставленных в промпте. По моим тестам, нужно быть очень явным (и повторять это) в инструкциях модели не использовать знания извне контекста и четко давать понять (дополнительными инструкциями), что лучше получить никакой ответ, чем неправильный. Также можно контролировать степень, в которой модель «показывает ход своих мыслей» и ссылается на источники или приводит примеры. Я считаю, что это часто хороший способ избежать галлюцинаций и выдуманных ответов, когда контекст не содержит фактического ответа или релевантных материалов.
И последнее замечание… Я вижу, что вы беспокоитесь о расходах и экономии токенов, что, думаю, имеет смысл для очень крупных сайтов. Однако для небольших или более финансово значимых приложений (например, служба поддержки клиентов) я не считаю это большой проблемой, и со временем эти расходы будут только снижаться. Стоимость дополнительных запросов к отдельным классификаторам для проверки ответа или реализации определенных пользователем «ограничений» определенно того стоит для нас. Например, мы обнаружили, что промпты вроде «содержит ли этот ответ информацию, не найденную в этих источниках», довольно показательны и определенно стоит запускать их перед предоставлением информации пользователям. GPT 3.5 определенно подходит для таких задач, даже если основная работа выполняется на GPT-4.