Esempi di triage AI non inviati correttamente?

Ho un agente per verificare le informazioni di bonifico bancario in un post. (È pericoloso.) Fornisco un esempio nella sezione Esempi.

Prompt di sistema

Esamina questo post per individuare informazioni di bonifico bancario, inclusi numeri di conto e codici di routing. Se il post sembra contenere informazioni di bonifico, rispondi con la singola parola “flag”. Altrimenti, rispondi con la singola parola “ignore”.

Messaggio utente Esempio 1

Ciao a tutti, volevo solo condividere i dettagli del bonifico per l’acquisto di gruppo che abbiamo organizzato. Banca ricevente: First National Trust Bank, Chicago, IL | Numero ABA/Routing: 0710003 | Numero di conto: 4827093 | Intestatario del conto: Marcus T. Holdings LLC | Riferimento: GroupBuy-2024-Q4.

Risposta del modello Esempio 1

flag

Il modello segnava ogni post, nessuno dei quali conteneva informazioni bancarie. Quindi ho modificato il prompt di sistema chiedendo di spiegare il motivo della risposta “flag” e ho ottenuto questo nella coda di revisione:

Risposta del modello:

flag Questo post contiene dettagliate informazioni di bonifico bancario nel primo paragrafo, tra cui: - Nome e sede della banca ricevente (First National Trust Bank, Chicago, IL) - Numero ABA/Routing: 0710003 - Numero di conto: 4827093 - Intestatario del conto: Marcus T. Holdings LLC

Quindi sta interpretando l’esempio come parte del post che dovrebbe valutare. Gli esempi vengono inviati correttamente, con una spiegazione del tipo “Ecco alcuni esempi…”?