Esempi di triage AI non inviati correttamente?

Ho un agente per verificare le informazioni di bonifico bancario in un post. (È pericoloso.) Fornisco un esempio nella sezione Esempi.

Prompt di sistema

Esamina questo post per individuare informazioni di bonifico bancario, inclusi numeri di conto e codici di routing. Se il post sembra contenere informazioni di bonifico, rispondi con la singola parola “flag”. Altrimenti, rispondi con la singola parola “ignore”.

Messaggio utente Esempio 1

Ciao a tutti, volevo solo condividere i dettagli del bonifico per l’acquisto di gruppo che abbiamo organizzato. Banca ricevente: First National Trust Bank, Chicago, IL | Numero ABA/Routing: 0710003 | Numero di conto: 4827093 | Intestatario del conto: Marcus T. Holdings LLC | Riferimento: GroupBuy-2024-Q4.

Risposta del modello Esempio 1

flag

Il modello segnava ogni post, nessuno dei quali conteneva informazioni bancarie. Quindi ho modificato il prompt di sistema chiedendo di spiegare il motivo della risposta “flag” e ho ottenuto questo nella coda di revisione:

Risposta del modello:

flag Questo post contiene dettagliate informazioni di bonifico bancario nel primo paragrafo, tra cui: - Nome e sede della banca ricevente (First National Trust Bank, Chicago, IL) - Numero ABA/Routing: 0710003 - Numero di conto: 4827093 - Intestatario del conto: Marcus T. Holdings LLC

Quindi sta interpretando l’esempio come parte del post che dovrebbe valutare. Gli esempi vengono inviati correttamente, con una spiegazione del tipo “Ecco alcuni esempi…”?

Invece di fornire al tuo modello istruzioni per restituire stringhe, puoi utilizzare il tipo automation di Triage with AI Agent, quindi concedere a questo agente l’accesso allo strumento flag.

Successivamente, istruisci l’agente a chiamare lo strumento quando si applicano le tue condizioni.

Hai ragione, è una soluzione più pulita e l’ho già applicata, ma il problema persiste. Segnala comunque ogni post. Non riesce a capire che l’esempio è solo un esempio.

Impostazioni di automazione


Impostazioni dell’agente




Segnala ogni post, citando il testo nell’esempio

  1. What LLM are you using?

  2. Those examples are wrong. They are sent as previous turns before your message, so they need to mimick the exact expected LLM response. If the example is from a situation where you want a tool call, then the response should mimic a tool call from the LLM. That said, your use case is so simple that any current LLM should be able to one-shot it without examples, just with a clear prompt saying when to call the tool.

Sto utilizzando Sonnet 4.5, che concordo non dovrebbe aver bisogno di esempi per questo caso semplice. Ma per casi più complessi, come si “mima una chiamata allo strumento da parte dell’LLM”? Cosa dovrei scrivere nelle caselle degli esempi? Esistono degli esempi di esempio da qualche parte?