Évaluations de prompts LLM - Bon à savoir

EricGT · Janvier 6, 2025, 8:32

Pour ceux d’entre nous qui créent des invites pour les LLM, comprendre l’efficacité de nos invites est important.

Dans le jargon des LLM, cela s’appelle evals, abréviation d’évaluations. Pour ceux d’entre nous habitués aux Tests Unitaires en programmation, les similitudes sont si proches que je les assimile souvent mentalement.

Lors des 12 jours d’OpenAI, cette question a été posée :

Que faisons-nous en tant que développeurs moins que ce que vous pensez que nous devrions faire ? Que souhaiteriez-vous que nous fassions différemment, ou plus ou moins ?

Michelle Pokrass d’OpenAI a répondu :

L’une des choses importantes est les evals ! Je vois des tonnes de développeurs ne pas utiliser du tout les evals et se fier à leur instinct pour déployer des changements en production. Je recommanderais vivement de créer des evals simples en utilisant notre produit evals (ou des offres open source) afin que vous puissiez mettre à jour en toute confiance lorsque nous publierons de nouveaux modèles.

Sur Twitter, Amanda Askell @AnthropicAI note :

Le secret ennuyeux mais crucial derrière de bonnes invites système est le développement piloté par les tests. Vous n’écrivez pas une invite système et ne trouvez pas de moyens de la tester. Vous écrivez des tests et trouvez une invite système qui les réussit.

Ce que beaucoup ignorent et qui commence maintenant à gagner du terrain auprès des créateurs de modèles LLM, ce sont des outils pour aider les utilisateurs finaux à évaluer leurs invites.

OpenAI playground :
https://platform.openai.com/docs/guides/evals
Note : Ceci est nouveau et dans le playground d’OpenAI, ce ne sont pas les evals que nous avons vus pendant des années dans le GitHub d’OpenAI (evals)

Anthropic console :

Microsoft .Net framework sur Azure :

Divulgation : Je n’ai utilisé aucune de ces évaluations automatisées, mais j’ai effectué de nombreuses évaluations plus simples manuellement en essayant différentes invites. Cela ne fera que faciliter les choses.

Pour plus de détails sur la méthode consistant à demander à un autre modèle (idéalement plus grand ou plus puissant) d’analyser une critique, plutôt que de comparer la sortie du modèle à une sortie créée par l’homme, je recommande cette leçon de Colin Jarvis.

Leçon 6 : Metaprompting avec o1
faisant partie du cours DeepLearning.AI : Reasoning with o1 - DeepLearning.AI

FYI

Je voulais ajouter une balise evals, mais je n’ai pas la permission de la créer.

Sujet		Réponses	Vues
Run Discourse AI evals Developer Guides	1	138	Décembre 1, 2025
Observability for Discourse AI Feature ai-bot , ai	2	116	Août 12, 2024
Prompt tools: funnel, orbit, and flux charts Feature ai , sql-query	0	77	Avril 16, 2025
Could every system prompt of AIs been editable? Feature ai-helper , ai	5	171	Décembre 20, 2024
Best models and prompts for testing Discord search and Discoveries Support ai-search , ai	3	111	Juin 16, 2025

Évaluations de prompts LLM - Bon à savoir

Sujets connexes