Werden AI-Triage-Beispiele nicht korrekt gesendet?

Ich habe einen Agenten, der in Beiträgen nach Banküberweisungsinformationen sucht. (Das ist gefährlich.) Im Abschnitt Beispiele gebe ich ihm ein Beispiel.

System-Prompt

Untersuchen Sie diesen Beitrag auf Banküberweisungsinformationen, einschließlich Kontonummern und Routing-Nummern. Wenn der Beitrag Überweisungsdaten zu enthalten scheint, antworten Sie mit dem einzelnen Wort “flag”. Andernfalls antworten Sie mit dem einzelnen Wort “ignore”.

Beispiel 1: Benutzernachricht

Hey alle, ich wollte nur die Überweisungsdetails für den gemeinsamen Kauf, den wir organisiert haben, teilen. Empfangende Bank: First National Trust Bank, Chicago, IL | ABA/Routing-Nummer: 0710003 | Kontonummer: 4827093 | Kontoinhaber: Marcus T. Holdings LLC | Referenz: GroupBuy-2024-Q4.

Beispiel 1: Modellantwort

flag

Es wurden alle Beiträge als verdächtig markiert, obwohl keiner Bankdaten enthielt. Also habe ich den System-Prompt so geändert, dass er mir den Grund für die Antwort “flag” mitteilt, und habe dies in der Prüfschlange erhalten:

Antwort des Modells:

flag Dieser Beitrag enthält im ersten Absatz detaillierte Banküberweisungsinformationen, darunter: - Name und Standort der empfangenden Bank (First National Trust Bank, Chicago, IL) - ABA/Routing-Nummer: 0710003 - Kontonummer: 4827093 - Kontoinhaber: Marcus T. Holdings LLC

Das Modell interpretiert das Beispiel also als Teil des zu bewertenden Beitrags. Werden die Beispiele korrekt übermittelt, etwa mit einer Erklärung wie „Hier sind einige Beispiele…

Anstatt Ihrem Modell Anweisungen zu geben, Strings zurückzugeben, können Sie den Automatisierungstyp Triage with AI Agent verwenden und diesem Agenten Zugriff auf das Tool flag gewähren.

Anschließend weisen Sie den Agenten an, das Tool aufzurufen, wenn Ihre Bedingungen zutreffen.

Du hast recht, das ist eine sauberere Lösung, und ich habe das auch gemacht, aber es ändert nichts am Problem. Es markiert weiterhin jeden Beitrag. Es versteht nicht, dass das Beispiel nur ein Beispiel ist.

Automatisierungseinstellungen


Agent-Einstellungen




Es markiert jeden Beitrag und verweist auf den Text im Beispiel

  1. What LLM are you using?

  2. Those examples are wrong. They are sent as previous turns before your message, so they need to mimick the exact expected LLM response. If the example is from a situation where you want a tool call, then the response should mimic a tool call from the LLM. That said, your use case is so simple that any current LLM should be able to one-shot it without examples, just with a clear prompt saying when to call the tool.

Ich verwende Sonnet 4.5, und ich stimme zu, dass für diesen einfachen Fall keine Beispiele nötig sein sollten. Aber wie kann ich bei komplexeren Fällen einen Tool-Call des LLM „nachahmen“? Was soll ich in die Beispiel-Felder eingeben? Gibt es irgendwo Beispiel-Beispiele?