Podría ser útil definir algunos puntos de referencia generados por humanos para los resúmenes, luego seguir iterando las indicaciones hasta que los resultados cumplan o superen esos puntos de referencia.
Un par de ejemplos:
Resumen para Understanding and managing bootstrap mode
El modo de arranque de Discourse es un estado especial que facilita el crecimiento de la comunidad, ajustando automáticamente la confianza del usuario, la frecuencia de comunicación y las actualizaciones del directorio, y se puede identificar a través del botón “Empezar” o los registros de acciones del personal.
Resumen para un tema de error:
El tema del foro está causando el problema de visibilidad del menú del usuario, que se puede rastrear y resolver, lo que lo convierte en un problema manejable de solucionar a pesar de ser un poco desafiante.
No creo que ninguno de esos extractos se acerque al rendimiento humano, definido como lo que puede lograr un buen escritor. Mi suposición es que el problema es que al LLM se le está dando una tarea imposible al pedirle que encaje demasiada información en una sola oración.
El objetivo principal del extracto debe ser dar a los usuarios una idea de qué esperar en el tema. No necesita hacer mucho más allá de eso.
Es probable que el LLM que genera los extractos necesite conocer el contexto del tema. Por ejemplo, para el tema de la documentación de arranque, esperaría una definición simple del modo de arranque. Para un tema en el que el OP es una pregunta generada por el usuario, el extracto podría simplemente reformular la pregunta en términos que probablemente entiendan los usuarios del sitio. Un tema iniciado por un usuario muy técnico podría tener un extracto que utilice algunos términos técnicos, para atraer a la audiencia adecuada al tema.