Ich habe einen Agenten, der in Beiträgen nach Banküberweisungsinformationen sucht. (Das ist gefährlich.) Im Abschnitt Beispiele gebe ich ihm ein Beispiel.
System-Prompt
Untersuchen Sie diesen Beitrag auf Banküberweisungsinformationen, einschließlich Kontonummern und Routing-Nummern. Wenn der Beitrag Überweisungsdaten zu enthalten scheint, antworten Sie mit dem einzelnen Wort “flag”. Andernfalls antworten Sie mit dem einzelnen Wort “ignore”.
Beispiel 1: Benutzernachricht
Hey alle, ich wollte nur die Überweisungsdetails für den gemeinsamen Kauf, den wir organisiert haben, teilen. Empfangende Bank: First National Trust Bank, Chicago, IL | ABA/Routing-Nummer: 0710003 | Kontonummer: 4827093 | Kontoinhaber: Marcus T. Holdings LLC | Referenz: GroupBuy-2024-Q4.
Beispiel 1: Modellantwort
flag
Es wurden alle Beiträge als verdächtig markiert, obwohl keiner Bankdaten enthielt. Also habe ich den System-Prompt so geändert, dass er mir den Grund für die Antwort “flag” mitteilt, und habe dies in der Prüfschlange erhalten:
Antwort des Modells:
flag Dieser Beitrag enthält im ersten Absatz detaillierte Banküberweisungsinformationen, darunter: - Name und Standort der empfangenden Bank (First National Trust Bank, Chicago, IL) - ABA/Routing-Nummer: 0710003 - Kontonummer: 4827093 - Kontoinhaber: Marcus T. Holdings LLC
Das Modell interpretiert das Beispiel also als Teil des zu bewertenden Beitrags. Werden die Beispiele korrekt übermittelt, etwa mit einer Erklärung wie „Hier sind einige Beispiele…