Para aqueles de nós que criam prompts para LLMs, entender a eficácia de nossos prompts é importante.
Na gíria de LLM, isso é conhecido como evals, abreviação de avaliações. Para aqueles de nós acostumados com Testes de Unidade em programação, as semelhanças são tão próximas que muitas vezes eu mentalmente as equiparo.
Durante os 12 dias da OpenAI, esta pergunta foi feita:
O que nós, como desenvolvedores, não estamos fazendo tanto quanto você acha que deveríamos? O que você gostaria que fizéssemos de forma diferente, ou mais ou menos?
Michelle Pokrass da OpenAI respondeu:
Uma grande coisa são os evals! Vejo toneladas de desenvolvedores não usando evals de forma alguma e confiando em “vibes” para lançar mudanças em produção. Eu recomendaria fortemente a criação de alguns evals simples usando nosso produto evals (ou ofertas de código aberto) para que você possa atualizar com confiança quando lançarmos novos modelos.
No Twitter, Amanda Askell @AnthropicAI observa:
O segredo chato, porém crucial, por trás de bons prompts de sistema é o desenvolvimento orientado a testes. Você não escreve um prompt de sistema e encontra maneiras de testá-lo. Você escreve testes e encontra um prompt de sistema que os passe.
O que muitos não sabem e que agora está começando a ganhar força com os criadores de modelos LLM são ferramentas para ajudar os usuários finais a avaliar seus prompts.
OpenAI playground:
https://platform.openai.com/docs/guides/evals
Nota: Isso é novo e no OpenAI playground, este não é o evals que vimos por anos no OpenAI GitHub (evals)
Anthropic console:
Microsoft .Net framework no Azure:
Divulgação: Eu não usei nenhuma dessas avaliações automatizadas, mas fiz muitas avaliações mais simples manualmente, tentando diferentes prompts. Isso apenas tornará mais fácil.
Para mais detalhes sobre o método de pedir a outro modelo (idealmente maior ou mais poderoso) para analisar uma revisão, em vez de comparar a saída do modelo com a saída criada por humanos, recomendo esta lição de Colin Jarvis.
Lição 6: Metaprompting com o1
parte do curso DeepLearning.AI: Reasoning with o1 - DeepLearning.AI
FYI
Queria adicionar uma tag evals, mas não tenho permissão para criá-la.