Полезно было бы определить несколько бенчмарков, созданных людьми, для кратких резюме, а затем продолжать итерации промптов, пока результаты не будут соответствовать или превосходить эти бенчмарки.
Вот несколько примеров:
Краткое содержание для Understanding and managing bootstrap mode
Режим загрузки (bootstrap mode) в Discourse — это особое состояние, способствующее росту сообщества, которое автоматически регулирует уровень доверия пользователей, частоту коммуникаций и обновления каталога. Его можно определить по кнопке «Начало работы» или в логах действий сотрудников.
Краткое содержание для темы с багом:
Проблема с видимостью меню пользователя вызвана темой форума. Её можно отследить и решить, так что, несмотря на некоторую сложность, это управляемая проблема.
Мне кажется, что ни один из этих отрывков не приближается к уровню человеческого мастерства — под которым я понимаю то, что может сделать хороший писатель. Думаю, проблема в том, что LLM ставится невыполнимая задача: уместить слишком много информации в одно предложение.
Основная цель отрывка — дать пользователям представление о том, чего ожидать в теме. Ему не нужно делать ничего большего.
Вероятно, LLM, генерирующая эти отрывки, должна учитывать контекст темы. Например, для темы с документацией о режиме загрузки я ожидал бы простого определения этого режима. В теме, где автор вопроса — обычный пользователь, отрывок может просто переформулировать вопрос так, чтобы его поняли пользователи сайта. Тема, созданная высококвалифицированным техническим специалистом, может содержать отрывок с использованием нескольких технических терминов, чтобы привлечь к теме нужную аудиторию.