Pode ser útil definir alguns benchmarks gerados por humanos para os resumos e, em seguida, continuar iterando os prompts até que os resultados atendam ou excedam esses benchmarks.
Alguns exemplos:
Gist para Understanding and managing bootstrap mode
O modo bootstrap do Discourse é um estado especial que facilita o crescimento da comunidade, ajustando automaticamente a confiança do usuário, a frequência de comunicação e as atualizações de diretório, e pode ser identificado através do botão “Começar” ou dos logs de ação da equipe.
Gist para um tópico de bug:
O tema do fórum está causando o problema de visibilidade do menu do usuário, que pode ser rastreado e resolvido, tornando-o um problema gerenciável para corrigir, apesar de ser um pouco desafiador.
Não acho que nenhum desses trechos esteja se aproximando do desempenho humano - com desempenho humano definido como o que pode ser alcançado por um bom escritor. Minha suposição é que o problema é que o LLM está recebendo uma tarefa impossível ao ser solicitado a encaixar muita informação em uma única frase.
O objetivo principal do trecho deve ser dar aos usuários uma ideia do que esperar no tópico. Não precisa fazer muito além disso.
É provável que o LLM que está gerando os trechos precise estar ciente do contexto do tópico. Por exemplo, para o tópico de documentação do bootstrap, eu esperaria uma definição simples do modo bootstrap. Para um tópico onde o OP é uma pergunta gerada pelo usuário, o trecho pode simplesmente reafirmar a pergunta em termos que provavelmente serão entendidos pelos usuários do site. Um tópico iniciado por um usuário altamente técnico pode ter um trecho que usa alguns termos técnicos, a fim de atrair o público certo para o tópico.