Werden AI-Triage-Beispiele nicht korrekt gesendet?

Ich habe einen Agenten, der in Beiträgen nach Banküberweisungsinformationen sucht. (Das ist gefährlich.) Im Abschnitt Beispiele gebe ich ihm ein Beispiel.

System-Prompt

Untersuchen Sie diesen Beitrag auf Banküberweisungsinformationen, einschließlich Kontonummern und Routing-Nummern. Wenn der Beitrag Überweisungsdaten zu enthalten scheint, antworten Sie mit dem einzelnen Wort “flag”. Andernfalls antworten Sie mit dem einzelnen Wort “ignore”.

Beispiel 1: Benutzernachricht

Hey alle, ich wollte nur die Überweisungsdetails für den gemeinsamen Kauf, den wir organisiert haben, teilen. Empfangende Bank: First National Trust Bank, Chicago, IL | ABA/Routing-Nummer: 0710003 | Kontonummer: 4827093 | Kontoinhaber: Marcus T. Holdings LLC | Referenz: GroupBuy-2024-Q4.

Beispiel 1: Modellantwort

flag

Es wurden alle Beiträge als verdächtig markiert, obwohl keiner Bankdaten enthielt. Also habe ich den System-Prompt so geändert, dass er mir den Grund für die Antwort “flag” mitteilt, und habe dies in der Prüfschlange erhalten:

Antwort des Modells:

flag Dieser Beitrag enthält im ersten Absatz detaillierte Banküberweisungsinformationen, darunter: - Name und Standort der empfangenden Bank (First National Trust Bank, Chicago, IL) - ABA/Routing-Nummer: 0710003 - Kontonummer: 4827093 - Kontoinhaber: Marcus T. Holdings LLC

Das Modell interpretiert das Beispiel also als Teil des zu bewertenden Beitrags. Werden die Beispiele korrekt übermittelt, etwa mit einer Erklärung wie „Hier sind einige Beispiele…