Exemplos de triagem por IA não foram enviados corretamente?

Tenho um agente para verificar informações de transferência bancária em uma postagem. (Isso é perigoso.) Eu forneço um exemplo na seção de Exemplos.

Prompt do Sistema

Analise esta postagem em busca de informações de transferência bancária, incluindo números de conta e códigos de roteamento. Se a postagem parecer conter informações de transferência, responda com a única palavra “flag”. Caso contrário, responda com a única palavra “ignore”.

Exemplo 1: Mensagem do Usuário

Olá a todos, só queria compartilhar os detalhes da transferência bancária para a compra em grupo que organizamos. Banco Recebedor: First National Trust Bank, Chicago, IL | Número ABA/Roteamento: 0710003 | Número da Conta: 4827093 | Nome da Conta: Marcus T. Holdings LLC | Referência: GroupBuy-2024-Q4.

Exemplo 1: Resposta do Modelo

flag

Ele estava marcando todas as postagens, nenhuma das quais continha informações bancárias. Então, mudei o prompt do sistema para pedir o motivo pelo qual ele estava respondendo com “flag”, e obtive isso na fila de revisão:

Resposta do modelo:

flag Esta postagem contém informações detalhadas de transferência bancária no primeiro parágrafo, incluindo: - Nome e localização do banco recebedor (First National Trust Bank, Chicago, IL) - Número ABA/Roteamento: 0710003 - Número da Conta: 4827093 - Nome da Conta: Marcus T. Holdings LLC

Então, ele está interpretando o exemplo como parte da postagem que deveria avaliar. Os exemplos estão sendo enviados corretamente, com uma explicação como “Aqui estão alguns exemplos…”?

Em vez de instruir seu modelo a retornar strings, você pode usar o tipo automation de Triagem com Agente de IA e, em seguida, conceder a esse agente acesso à ferramenta flag.

Depois, instrua o agente a chamar a ferramenta quando suas condições forem atendidas.

Você tem razão, essa é uma solução mais limpa, e eu fiz isso, mas não resolve o problema. Ainda assim, ele sinaliza cada post. Ele não está entendendo que o exemplo é apenas um exemplo.

Configurações de Automação


Configurações do Agente




Ele sinaliza cada post, citando o texto do exemplo

  1. What LLM are you using?

  2. Those examples are wrong. They are sent as previous turns before your message, so they need to mimick the exact expected LLM response. If the example is from a situation where you want a tool call, then the response should mimic a tool call from the LLM. That said, your use case is so simple that any current LLM should be able to one-shot it without examples, just with a clear prompt saying when to call the tool.

Estou usando o Sonnet 4.5, que concordo não deveria precisar de exemplos para este caso simples. Mas para casos mais complexos, como “mimicar uma chamada de ferramenta do LLM”? O que devo digitar nas caixas de exemplo? Existem exemplos de exemplos em algum lugar?