Esempi di triage AI non inviati correttamente?

Ho un agente per verificare le informazioni di bonifico bancario in un post. (È pericoloso.) Fornisco un esempio nella sezione Esempi.

Prompt di sistema

Esamina questo post per individuare informazioni di bonifico bancario, inclusi numeri di conto e codici di routing. Se il post sembra contenere informazioni di bonifico, rispondi con la singola parola “flag”. Altrimenti, rispondi con la singola parola “ignore”.

Messaggio utente Esempio 1

Ciao a tutti, volevo solo condividere i dettagli del bonifico per l’acquisto di gruppo che abbiamo organizzato. Banca ricevente: First National Trust Bank, Chicago, IL | Numero ABA/Routing: 0710003 | Numero di conto: 4827093 | Intestatario del conto: Marcus T. Holdings LLC | Riferimento: GroupBuy-2024-Q4.

Risposta del modello Esempio 1

flag

Il modello segnava ogni post, nessuno dei quali conteneva informazioni bancarie. Quindi ho modificato il prompt di sistema chiedendo di spiegare il motivo della risposta “flag” e ho ottenuto questo nella coda di revisione:

Risposta del modello:

flag Questo post contiene dettagliate informazioni di bonifico bancario nel primo paragrafo, tra cui: - Nome e sede della banca ricevente (First National Trust Bank, Chicago, IL) - Numero ABA/Routing: 0710003 - Numero di conto: 4827093 - Intestatario del conto: Marcus T. Holdings LLC

Quindi sta interpretando l’esempio come parte del post che dovrebbe valutare. Gli esempi vengono inviati correttamente, con una spiegazione del tipo “Ecco alcuni esempi…”?

Invece di fornire al tuo modello istruzioni per restituire stringhe, puoi utilizzare il tipo automation di Triage with AI Agent, quindi concedere a questo agente l’accesso allo strumento flag.

Successivamente, istruisci l’agente a chiamare lo strumento quando si applicano le tue condizioni.

Hai ragione, è una soluzione più pulita e l’ho già applicata, ma il problema persiste. Segnala comunque ogni post. Non riesce a capire che l’esempio è solo un esempio.

Impostazioni di automazione


Impostazioni dell’agente




Segnala ogni post, citando il testo nell’esempio

  1. Quale LLM stai utilizzando?

  2. Quegli esempi sono errati. Vengono inviati come turni precedenti al tuo messaggio, quindi devono simulare esattamente la risposta attesa dell’LLM. Se l’esempio proviene da una situazione in cui desideri una chiamata a uno strumento, la risposta dovrebbe simulare una chiamata a strumento da parte dell’LLM. Detto questo, il tuo caso d’uso è così semplice che qualsiasi LLM attuale dovrebbe essere in grado di gestirlo con un singolo esempio (one-shot), senza bisogno di altri esempi, purché il prompt sia chiaro riguardo a quando effettuare la chiamata allo strumento.

Sto utilizzando Sonnet 4.5, che concordo non dovrebbe aver bisogno di esempi per questo caso semplice. Ma per casi più complessi, come si “mima una chiamata allo strumento da parte dell’LLM”? Cosa dovrei scrivere nelle caselle degli esempi? Esistono degli esempi di esempio da qualche parte?