Pour ceux d’entre nous qui créent des invites pour les LLM, comprendre l’efficacité de nos invites est important.
Dans le jargon des LLM, cela s’appelle evals, abréviation d’évaluations. Pour ceux d’entre nous habitués aux Tests Unitaires en programmation, les similitudes sont si proches que je les assimile souvent mentalement.
Lors des 12 jours d’OpenAI, cette question a été posée :
Que faisons-nous en tant que développeurs moins que ce que vous pensez que nous devrions faire ? Que souhaiteriez-vous que nous fassions différemment, ou plus ou moins ?
Michelle Pokrass d’OpenAI a répondu :
L’une des choses importantes est les
evals! Je vois des tonnes de développeurs ne pas utiliser du tout lesevalset se fier à leur instinct pour déployer des changements en production. Je recommanderais vivement de créer desevalssimples en utilisant notre produitevals(ou des offres open source) afin que vous puissiez mettre à jour en toute confiance lorsque nous publierons de nouveaux modèles.
Sur Twitter, Amanda Askell @AnthropicAI note :
Le secret ennuyeux mais crucial derrière de bonnes invites système est le développement piloté par les tests. Vous n’écrivez pas une invite système et ne trouvez pas de moyens de la tester. Vous écrivez des tests et trouvez une invite système qui les réussit.
Ce que beaucoup ignorent et qui commence maintenant à gagner du terrain auprès des créateurs de modèles LLM, ce sont des outils pour aider les utilisateurs finaux à évaluer leurs invites.
OpenAI playground :
https://platform.openai.com/docs/guides/evals
Note : Ceci est nouveau et dans le playground d’OpenAI, ce ne sont pas les evals que nous avons vus pendant des années dans le GitHub d’OpenAI (evals)
Anthropic console :
Microsoft .Net framework sur Azure :
Divulgation : Je n’ai utilisé aucune de ces évaluations automatisées, mais j’ai effectué de nombreuses évaluations plus simples manuellement en essayant différentes invites. Cela ne fera que faciliter les choses.
Pour plus de détails sur la méthode consistant à demander à un autre modèle (idéalement plus grand ou plus puissant) d’analyser une critique, plutôt que de comparer la sortie du modèle à une sortie créée par l’homme, je recommande cette leçon de Colin Jarvis.
Leçon 6 : Metaprompting avec o1
faisant partie du cours DeepLearning.AI : Reasoning with o1 - DeepLearning.AI
FYI
Je voulais ajouter une balise evals, mais je n’ai pas la permission de la créer.