Evaluaciones de prompts LLM: bueno saberlo

Para aquellos de nosotros que creamos prompts para LLMs, comprender cuán efectivos son nuestros prompts es importante.

En la jerga de LLM, se conoce como evals, abreviatura de evaluaciones. Para aquellos de nosotros acostumbrados a las Pruebas Unitarias en programación, las similitudes son tan cercanas que a menudo las equiparo mentalmente.

Durante los 12 días de OpenAI, se hizo esta pregunta:

¿Qué es lo que nosotros, como desarrolladores, no estamos haciendo tanto como creen que deberíamos? ¿Qué desearían que hiciéramos de manera diferente, o más o menos?

Michelle Pokrass de OpenAI respondió:

¡Una cosa importante son las evals! Veo a muchísimos desarrolladores que no usan evals en absoluto y confían en la intuición para implementar cambios en producción. Recomendaría encarecidamente crear algunas evals simples utilizando nuestro producto de evals (u ofertas de código abierto) para que puedan actualizar con confianza cuando lancemos nuevos modelos.

En Twitter, Amanda Askell @AnthropicAI señala:

El secreto aburrido pero crucial detrás de los buenos prompts del sistema es el desarrollo guiado por pruebas. No escribes un prompt del sistema y buscas formas de probarlo. Escribes las pruebas y buscas un prompt del sistema que las supere.

Lo que muchos no saben y que ahora está empezando a ganar terreno entre los creadores de modelos LLM son las herramientas para ayudar a los usuarios finales a evaluar sus prompts.

OpenAI playground:
https://platform.openai.com/docs/guides/evals
Nota: Esto es nuevo y en el playground de OpenAI, no son las evals que hemos visto durante años en el GitHub de OpenAI (evals)

Consola de Anthropic:

Microsoft .Net framework en Azure:

Divulgación: No he utilizado ninguna de estas evaluaciones automatizadas, pero he realizado muchas evaluaciones más simples manualmente probando diferentes prompts. Esto solo lo hará más fácil.


Para más detalles sobre el método de pedir a otro modelo (idealmente más grande o más potente) que analice una revisión, en lugar de comparar la salida del modelo con la salida creada por humanos, recomiendo esta lección de Colin Jarvis.

Lección 6: Metaprompting con o1
parte del curso de DeepLearning.AI: Reasoning with o1 - DeepLearning.AI


FYI

Quería añadir una etiqueta evals, pero carezco de permiso para crearla.

6 Me gusta