Evaluaciones de prompts LLM: bueno saberlo

EricGT · 6 Enero, 2025 20:32

Para aquellos de nosotros que creamos prompts para LLMs, comprender cuán efectivos son nuestros prompts es importante.

En la jerga de LLM, se conoce como evals, abreviatura de evaluaciones. Para aquellos de nosotros acostumbrados a las Pruebas Unitarias en programación, las similitudes son tan cercanas que a menudo las equiparo mentalmente.

Durante los 12 días de OpenAI, se hizo esta pregunta:

¿Qué es lo que nosotros, como desarrolladores, no estamos haciendo tanto como creen que deberíamos? ¿Qué desearían que hiciéramos de manera diferente, o más o menos?

Michelle Pokrass de OpenAI respondió:

¡Una cosa importante son las evals! Veo a muchísimos desarrolladores que no usan evals en absoluto y confían en la intuición para implementar cambios en producción. Recomendaría encarecidamente crear algunas evals simples utilizando nuestro producto de evals (u ofertas de código abierto) para que puedan actualizar con confianza cuando lancemos nuevos modelos.

En Twitter, Amanda Askell @AnthropicAI señala:

El secreto aburrido pero crucial detrás de los buenos prompts del sistema es el desarrollo guiado por pruebas. No escribes un prompt del sistema y buscas formas de probarlo. Escribes las pruebas y buscas un prompt del sistema que las supere.

Lo que muchos no saben y que ahora está empezando a ganar terreno entre los creadores de modelos LLM son las herramientas para ayudar a los usuarios finales a evaluar sus prompts.

OpenAI playground:
https://platform.openai.com/docs/guides/evals
Nota: Esto es nuevo y en el playground de OpenAI, no son las evals que hemos visto durante años en el GitHub de OpenAI (evals)

Consola de Anthropic:

Microsoft .Net framework en Azure:

Divulgación: No he utilizado ninguna de estas evaluaciones automatizadas, pero he realizado muchas evaluaciones más simples manualmente probando diferentes prompts. Esto solo lo hará más fácil.

Para más detalles sobre el método de pedir a otro modelo (idealmente más grande o más potente) que analice una revisión, en lugar de comparar la salida del modelo con la salida creada por humanos, recomiendo esta lección de Colin Jarvis.

Lección 6: Metaprompting con o1
parte del curso de DeepLearning.AI: Reasoning with o1 - DeepLearning.AI

FYI

Quería añadir una etiqueta evals, pero carezco de permiso para crearla.

Tema		Respuestas	Vistas
Run Discourse AI evals Developer Guides	1	138	1 Diciembre 2025
Observability for Discourse AI Feature ai-bot , ai	2	116	12 Agosto 2024
Prompt tools: funnel, orbit, and flux charts Feature ai , sql-query	0	77	16 Abril 2025
Could every system prompt of AIs been editable? Feature ai-helper , ai	5	172	20 Diciembre 2024
Best models and prompts for testing Discord search and Discoveries Support ai-search , ai	3	111	16 Junio 2025

Evaluaciones de prompts LLM: bueno saberlo

Temas relacionados