Für diejenigen unter uns, die Prompts für LLMs erstellen, ist es wichtig zu verstehen, wie effektiv unsere Prompts sind.
In der LLM-Sprache ist dies als evals bekannt, kurz für Evaluationen. Für diejenigen von uns, die mit Unit Testing in der Programmierung vertraut sind, sind die Ähnlichkeiten so groß, dass ich die beiden oft mental gleichsetze.
Während der 12 Tage von OpenAI wurde diese Frage gestellt:
Was tun wir als Entwickler nicht so viel, wie Sie denken, dass wir es tun sollten? Was wünschen Sie sich, dass wir anders oder mehr oder weniger tun?
Michelle Pokrass von OpenAI antwortete:
Ein wichtiger Punkt sind Evals! Ich sehe, dass viele Entwickler Evals überhaupt nicht verwenden und sich auf ihr Bauchgefühl verlassen, wenn sie Änderungen in die Produktion bringen. Ich würde dringend empfehlen, einfache Evals mit unserem Evals-Produkt (oder Open-Source-Angeboten) zu erstellen, damit Sie mit Zuversicht aktualisieren können, wenn wir neue Modelle veröffentlichen.
Auf Twitter bemerkte Amanda Askell @AnthropicAI:
Das langweilige, aber entscheidende Geheimnis hinter guten System-Prompts ist Test-Driven Development. Sie schreiben keinen System-Prompt auf und finden Wege, ihn zu testen. Sie schreiben Tests und finden einen System-Prompt, der sie besteht.
Was viele nicht wissen und was nun bei den LLM-Modellerstellern an Bedeutung gewinnt, sind Werkzeuge, die Endbenutzern bei der Bewertung ihrer Prompts helfen.
OpenAI Playground:
https://platform.openai.com/docs/guides/evals
Hinweis: Dies ist neu und im OpenAI Playground, dies sind nicht die Evals, die wir seit Jahren im OpenAI GitHub (evals) gesehen haben.
Anthropic Console:
Microsoft .Net Framework unter Azure:
Offenlegung: Ich habe keine dieser automatisierten Auswertungen verwendet, aber ich habe viele einfachere Auswertungen manuell durchgeführt, indem ich verschiedene Prompts ausprobiert habe. Dies wird es einfach nur einfacher machen.
Für weitere Details zur Methode, ein anderes (idealerweise größeres oder leistungsfähigeres) Modell zu bitten, eine Bewertung zu analysieren, anstatt die Modellausgabe mit von Menschen erstellten Ausgaben zu vergleichen, empfehle ich diese Lektion von Colin Jarvis.
Lektion 6: Metaprompting mit o1
Teil des DeepLearning.AI-Kurses: Reasoning with o1 - DeepLearning.AI
FYI
Ich wollte ein Tag evals hinzufügen, aber ich habe keine Berechtigung, es zu erstellen.