Avaliações de prompts de LLM - Bom de saber

EricGT · Janeiro 6, 2025, 8:32pm

Para aqueles de nós que criam prompts para LLMs, entender a eficácia de nossos prompts é importante.

Na gíria de LLM, isso é conhecido como evals, abreviação de avaliações. Para aqueles de nós acostumados com Testes de Unidade em programação, as semelhanças são tão próximas que muitas vezes eu mentalmente as equiparo.

Durante os 12 dias da OpenAI, esta pergunta foi feita:

O que nós, como desenvolvedores, não estamos fazendo tanto quanto você acha que deveríamos? O que você gostaria que fizéssemos de forma diferente, ou mais ou menos?

Michelle Pokrass da OpenAI respondeu:

Uma grande coisa são os evals! Vejo toneladas de desenvolvedores não usando evals de forma alguma e confiando em “vibes” para lançar mudanças em produção. Eu recomendaria fortemente a criação de alguns evals simples usando nosso produto evals (ou ofertas de código aberto) para que você possa atualizar com confiança quando lançarmos novos modelos.

No Twitter, Amanda Askell @AnthropicAI observa:

O segredo chato, porém crucial, por trás de bons prompts de sistema é o desenvolvimento orientado a testes. Você não escreve um prompt de sistema e encontra maneiras de testá-lo. Você escreve testes e encontra um prompt de sistema que os passe.

O que muitos não sabem e que agora está começando a ganhar força com os criadores de modelos LLM são ferramentas para ajudar os usuários finais a avaliar seus prompts.

OpenAI playground:
https://platform.openai.com/docs/guides/evals
Nota: Isso é novo e no OpenAI playground, este não é o evals que vimos por anos no OpenAI GitHub (evals)

Anthropic console:

Microsoft .Net framework no Azure:

Divulgação: Eu não usei nenhuma dessas avaliações automatizadas, mas fiz muitas avaliações mais simples manualmente, tentando diferentes prompts. Isso apenas tornará mais fácil.

Para mais detalhes sobre o método de pedir a outro modelo (idealmente maior ou mais poderoso) para analisar uma revisão, em vez de comparar a saída do modelo com a saída criada por humanos, recomendo esta lição de Colin Jarvis.

Lição 6: Metaprompting com o1
parte do curso DeepLearning.AI: Reasoning with o1 - DeepLearning.AI

FYI

Queria adicionar uma tag evals, mas não tenho permissão para criá-la.

Tópico		Respostas	Visualizações
Run Discourse AI evals Developer Guides	1	138	1 de Dezembro de 2025
Observability for Discourse AI Feature ai-bot , ai	2	116	12 de Agosto de 2024
Prompt tools: funnel, orbit, and flux charts Feature ai , sql-query	0	77	16 de Abril de 2025
Could every system prompt of AIs been editable? Feature ai-helper , ai	5	171	20 de Dezembro de 2024
Best models and prompts for testing Discord search and Discoveries Support ai-search , ai	3	111	16 de Junho de 2025

Avaliações de prompts de LLM - Bom de saber

Tópicos relacionados