Per coloro che creano prompt per LLM, comprendere l’efficacia dei nostri prompt è importante.
Nel gergo degli LLM, è noto come evals, abbreviazione di valutazioni. Per coloro di noi abituati al Unit Testing nella programmazione, le somiglianze sono così strette che spesso le equiparo mentalmente.
Durante i 12 giorni di OpenAI, è stata posta questa domanda:
Cosa non stiamo facendo come sviluppatori quanto pensi che dovremmo fare? Cosa vorresti che facessimo diversamente, o più o meno?
Michelle Pokrass di OpenAI ha risposto:
Una cosa importante sono gli evals! Vedo tantissimi sviluppatori che non usano affatto gli evals e si affidano alle sensazioni per rilasciare modifiche in produzione. Consiglierei vivamente di creare alcuni semplici evals utilizzando il nostro prodotto evals (o offerte open source) in modo da poter aggiornare con fiducia quando rilasciamo nuovi modelli.
Su Twitter, Amanda Askell @AnthropicAI nota:
Il segreto noioso ma cruciale dietro i buoni prompt di sistema è lo sviluppo guidato dai test. Non scrivi un prompt di sistema e trovi modi per testarlo. Scrivi i test e trovi un prompt di sistema che li superi.
Ciò che molti non sanno e che sta iniziando a guadagnare terreno tra i creatori di modelli LLM sono strumenti per aiutare gli utenti finali a valutare i loro prompt.
OpenAI playground:
https://platform.openai.com/docs/guides/evals
Nota: Questo è nuovo e nell’OpenAI playground, questi non sono gli evals che abbiamo visto per anni in OpenAI GitHub (evals)
Anthropic console:
Microsoft .Net framework su Azure:
Dichiarazione: Non ho utilizzato nessuna di queste valutazioni automatiche, ma ho eseguito molte valutazioni più semplici manualmente provando prompt diversi. Questo renderà solo le cose più facili.
Per maggiori dettagli sul metodo di chiedere a un altro modello (idealmente più grande o più potente) di analizzare una recensione, piuttosto che confrontare l’output del modello con un output creato dall’uomo, consiglio questa lezione di Colin Jarvis.
Lezione 6: Metaprompting con o1
parte del corso DeepLearning.AI: Reasoning with o1 - DeepLearning.AI
FYI
Volevo aggiungere un tag evals, ma non ho il permesso di crearlo.