Ich kann mir wirklich vorstellen, dass die Optimierung von Prompts für uns nützlich ist, obwohl ich nach einigen Amateur-„Prompt-Engineering“-Erfahrungen für ein anderes Projekt kürzlich festgestellt habe, dass es etwas Anleitung und viele Beispiele für Personen erfordert, die damit nicht vertraut sind. Die Benutzeroberfläche würde wahrscheinlich von einer Reihe von Beispielen/Standardauswahlen profitieren, wie z. B. „gesprächig/lustig“, „neutral/genau“ bis hin zu „buchartig/nerdig“, um zu zeigen, wie die Formulierungen der Persona die Antwort verändern können.
Ich habe auch festgestellt, dass es aufgrund der inhärenten Zufälligkeit der Modelle schwierig sein kann, die Auswirkungen von Änderungen der Prompt-Formulierung einzuschätzen, und auch, weil die Auswirkungen je nach Thema des Prompts variieren können. Es wäre schön, eine standardisierte Testsuite von Benutzereingaben zu entwickeln und diese zu verwenden, um einen Trockenlauf zu simulieren, wie sich Änderungen der Persona oder der Anweisungen auf die Bot-Ausgaben auswirken würden. Ich schätze, das wäre auch für Ihr Team nützlich … obwohl man, sobald der Testdatensatz groß wird, das Problem hat, wie man ihn auswertet, ohne viel Zeit zu investieren.
Eine weitere Dimension, die Benutzer meiner Meinung nach oft anpassen möchten, ist, wie streng die LLM an das im Prompt bereitgestellte Quellmaterial gebunden ist. In meinen Tests muss man recht explizit (und wiederholend) Anweisungen geben, dass das Modell keine Kenntnisse außerhalb des Kontexts importieren soll, und klarstellen (weitere Anweisungen), dass man lieber keine Antwort als schlechte Antworten hätte. Man kann auch den Grad steuern, zu dem das Modell seine „Arbeitsschritte“ zeigt und Quellen angibt/Beispiele liefert. Ich denke, das ist oft ein guter Weg, Halluzinationen/Bullshit-Antworten zu vermeiden, wenn der Kontext nicht die tatsächliche Antwort oder relevantes Material enthält.
Ein letzter Kommentar … Ich sehe hier, dass Sie sich Sorgen um die Kosten und die sparsame Verwendung von Tokens gemacht haben, was für sehr große Websites wahrscheinlich sinnvoll ist. Für kleinere oder höherwertige Anwendungen (z. B. Kundensupport) denke ich jedoch nicht, dass dies ein großes Problem wäre, und dies wird im Laufe der Zeit nur noch weiter abnehmen. Die Kosten für zusätzliche Abfragen an separate Klassifikatoren, die die Antwort auf Plausibilität prüfen oder benutzerdefinierte „Leitplanken“ implementieren, wären für uns definitiv lohnenswert. Zum Beispiel haben wir festgestellt, dass Prompts wie „enthält diese Antwort Informationen, die nicht in diesen Quellen zu finden sind“ recht aufschlussreich sind und definitiv vor der Präsentation von Informationen für die Benutzer ausgeführt werden sollten. GPT 3.5 ist für diese Art von Aufgabe definitiv in Ordnung, auch wenn die Hauptaufgabe mit GPT4 ausgeführt wird.