Werden AI-Triage-Beispiele nicht korrekt gesendet?

Ich habe einen Agenten, der in Beiträgen nach Banküberweisungsinformationen sucht. (Das ist gefährlich.) Im Abschnitt Beispiele gebe ich ihm ein Beispiel.

System-Prompt

Untersuchen Sie diesen Beitrag auf Banküberweisungsinformationen, einschließlich Kontonummern und Routing-Nummern. Wenn der Beitrag Überweisungsdaten zu enthalten scheint, antworten Sie mit dem einzelnen Wort “flag”. Andernfalls antworten Sie mit dem einzelnen Wort “ignore”.

Beispiel 1: Benutzernachricht

Hey alle, ich wollte nur die Überweisungsdetails für den gemeinsamen Kauf, den wir organisiert haben, teilen. Empfangende Bank: First National Trust Bank, Chicago, IL | ABA/Routing-Nummer: 0710003 | Kontonummer: 4827093 | Kontoinhaber: Marcus T. Holdings LLC | Referenz: GroupBuy-2024-Q4.

Beispiel 1: Modellantwort

flag

Es wurden alle Beiträge als verdächtig markiert, obwohl keiner Bankdaten enthielt. Also habe ich den System-Prompt so geändert, dass er mir den Grund für die Antwort “flag” mitteilt, und habe dies in der Prüfschlange erhalten:

Antwort des Modells:

flag Dieser Beitrag enthält im ersten Absatz detaillierte Banküberweisungsinformationen, darunter: - Name und Standort der empfangenden Bank (First National Trust Bank, Chicago, IL) - ABA/Routing-Nummer: 0710003 - Kontonummer: 4827093 - Kontoinhaber: Marcus T. Holdings LLC

Das Modell interpretiert das Beispiel also als Teil des zu bewertenden Beitrags. Werden die Beispiele korrekt übermittelt, etwa mit einer Erklärung wie „Hier sind einige Beispiele…

Anstatt Ihrem Modell Anweisungen zu geben, Strings zurückzugeben, können Sie den Automatisierungstyp Triage with AI Agent verwenden und diesem Agenten Zugriff auf das Tool flag gewähren.

Anschließend weisen Sie den Agenten an, das Tool aufzurufen, wenn Ihre Bedingungen zutreffen.

Du hast recht, das ist eine sauberere Lösung, und ich habe das auch gemacht, aber es ändert nichts am Problem. Es markiert weiterhin jeden Beitrag. Es versteht nicht, dass das Beispiel nur ein Beispiel ist.

Automatisierungseinstellungen


Agent-Einstellungen




Es markiert jeden Beitrag und verweist auf den Text im Beispiel

  1. Welchen LLM verwenden Sie?

  2. Diese Beispiele sind falsch. Sie werden als vorherige Interaktionen vor Ihrer Nachricht gesendet, daher müssen sie die exakt erwartete Antwort des LLM nachahmen. Wenn das Beispiel aus einer Situation stammt, in der Sie einen Tool-Aufruf wünschen, sollte die Antwort einen solchen Tool-Aufruf durch den LLM simulieren. Da Ihr Anwendungsfall jedoch so einfach ist, sollte jeder aktuelle LLM dies ohne Beispiele, allein durch eine klare Anweisung, wann das Tool aufgerufen werden soll, in einem einzigen Versuch („one-shot“) bewältigen können.

Ich verwende Sonnet 4.5, und ich stimme zu, dass für diesen einfachen Fall keine Beispiele nötig sein sollten. Aber wie kann ich bei komplexeren Fällen einen Tool-Call des LLM „nachahmen“? Was soll ich in die Beispiel-Felder eingeben? Gibt es irgendwo Beispiel-Beispiele?