Feedback para resumos rápidos de IA, listas de tópicos

Pode ser útil definir alguns benchmarks gerados por humanos para os resumos e, em seguida, continuar iterando os prompts até que os resultados atendam ou excedam esses benchmarks.

Alguns exemplos:
Gist para Understanding and managing bootstrap mode

O modo bootstrap do Discourse é um estado especial que facilita o crescimento da comunidade, ajustando automaticamente a confiança do usuário, a frequência de comunicação e as atualizações de diretório, e pode ser identificado através do botão “Começar” ou dos logs de ação da equipe.

Gist para um tópico de bug:

O tema do fórum está causando o problema de visibilidade do menu do usuário, que pode ser rastreado e resolvido, tornando-o um problema gerenciável para corrigir, apesar de ser um pouco desafiador.

Não acho que nenhum desses trechos esteja se aproximando do desempenho humano - com desempenho humano definido como o que pode ser alcançado por um bom escritor. Minha suposição é que o problema é que o LLM está recebendo uma tarefa impossível ao ser solicitado a encaixar muita informação em uma única frase.

O objetivo principal do trecho deve ser dar aos usuários uma ideia do que esperar no tópico. Não precisa fazer muito além disso.

É provável que o LLM que está gerando os trechos precise estar ciente do contexto do tópico. Por exemplo, para o tópico de documentação do bootstrap, eu esperaria uma definição simples do modo bootstrap. Para um tópico onde o OP é uma pergunta gerada pelo usuário, o trecho pode simplesmente reafirmar a pergunta em termos que provavelmente serão entendidos pelos usuários do site. Um tópico iniciado por um usuário altamente técnico pode ter um trecho que usa alguns termos técnicos, a fim de atrair o público certo para o tópico.

2 curtidas