Werden AI-Triage-Beispiele nicht korrekt gesendet?

markschmucker · 25. April 2026 um 07:11

Ich habe einen Agenten, der in Beiträgen nach Banküberweisungsinformationen sucht. (Das ist gefährlich.) Im Abschnitt Beispiele gebe ich ihm ein Beispiel.

System-Prompt

Untersuchen Sie diesen Beitrag auf Banküberweisungsinformationen, einschließlich Kontonummern und Routing-Nummern. Wenn der Beitrag Überweisungsdaten zu enthalten scheint, antworten Sie mit dem einzelnen Wort “flag”. Andernfalls antworten Sie mit dem einzelnen Wort “ignore”.

Beispiel 1: Benutzernachricht

Hey alle, ich wollte nur die Überweisungsdetails für den gemeinsamen Kauf, den wir organisiert haben, teilen. Empfangende Bank: First National Trust Bank, Chicago, IL | ABA/Routing-Nummer: 0710003 | Kontonummer: 4827093 | Kontoinhaber: Marcus T. Holdings LLC | Referenz: GroupBuy-2024-Q4.

Beispiel 1: Modellantwort

flag

Es wurden alle Beiträge als verdächtig markiert, obwohl keiner Bankdaten enthielt. Also habe ich den System-Prompt so geändert, dass er mir den Grund für die Antwort “flag” mitteilt, und habe dies in der Prüfschlange erhalten:

Antwort des Modells:

flag Dieser Beitrag enthält im ersten Absatz detaillierte Banküberweisungsinformationen, darunter: - Name und Standort der empfangenden Bank (First National Trust Bank, Chicago, IL) - ABA/Routing-Nummer: 0710003 - Kontonummer: 4827093 - Kontoinhaber: Marcus T. Holdings LLC

Das Modell interpretiert das Beispiel also als Teil des zu bewertenden Beitrags. Werden die Beispiele korrekt übermittelt, etwa mit einer Erklärung wie „Hier sind einige Beispiele…

Falco · 25. April 2026 um 14:44

Anstatt Ihrem Modell Anweisungen zu geben, Strings zurückzugeben, können Sie den Automatisierungstyp Triage with AI Agent verwenden und diesem Agenten Zugriff auf das Tool flag gewähren.

Anschließend weisen Sie den Agenten an, das Tool aufzurufen, wenn Ihre Bedingungen zutreffen.

markschmucker · 25. April 2026 um 22:58

Du hast recht, das ist eine sauberere Lösung, und ich habe das auch gemacht, aber es ändert nichts am Problem. Es markiert weiterhin jeden Beitrag. Es versteht nicht, dass das Beispiel nur ein Beispiel ist.

Automatisierungseinstellungen

Agent-Einstellungen

Es markiert jeden Beitrag und verweist auf den Text im Beispiel

Falco · 26. April 2026 um 00:02

What LLM are you using?
Those examples are wrong. They are sent as previous turns before your message, so they need to mimick the exact expected LLM response. If the example is from a situation where you want a tool call, then the response should mimic a tool call from the LLM. That said, your use case is so simple that any current LLM should be able to one-shot it without examples, just with a clear prompt saying when to call the tool.

markschmucker · 26. April 2026 um 00:29

Ich verwende Sonnet 4.5, und ich stimme zu, dass für diesen einfachen Fall keine Beispiele nötig sein sollten. Aber wie kann ich bei komplexeren Fällen einen Tool-Call des LLM „nachahmen“? Was soll ich in die Beispiel-Felder eingeben? Gibt es irgendwo Beispiel-Beispiele?

Thema		Antworten	Aufrufe
Discourse AI - AI triage using Agent Site Management how-to , ai , automation	11	699	5. August 2025
"Triage posts using AI" script of "Automation" plugin always includes image data in request Bug automation , ai	2	73	29. Dezember 2025
Discourse AI - Spam detection Site Management moderation , spam , how-to , ai	32	3772	10. März 2026
Should we tell the AI spam scanner to flag posts containing phone numbers by default? Feature spam , ai	4	108	15. September 2025
Tag topics using AI Site Management ai , automation , how-to	0	50	21. April 2026

Werden AI-Triage-Beispiele nicht korrekt gesendet?

Verwandte Themen