Exemplos de triagem por IA não foram enviados corretamente?

Tenho um agente para verificar informações de transferência bancária em uma postagem. (Isso é perigoso.) Eu forneço um exemplo na seção de Exemplos.

Prompt do Sistema

Analise esta postagem em busca de informações de transferência bancária, incluindo números de conta e códigos de roteamento. Se a postagem parecer conter informações de transferência, responda com a única palavra “flag”. Caso contrário, responda com a única palavra “ignore”.

Exemplo 1: Mensagem do Usuário

Olá a todos, só queria compartilhar os detalhes da transferência bancária para a compra em grupo que organizamos. Banco Recebedor: First National Trust Bank, Chicago, IL | Número ABA/Roteamento: 0710003 | Número da Conta: 4827093 | Nome da Conta: Marcus T. Holdings LLC | Referência: GroupBuy-2024-Q4.

Exemplo 1: Resposta do Modelo

flag

Ele estava marcando todas as postagens, nenhuma das quais continha informações bancárias. Então, mudei o prompt do sistema para pedir o motivo pelo qual ele estava respondendo com “flag”, e obtive isso na fila de revisão:

Resposta do modelo:

flag Esta postagem contém informações detalhadas de transferência bancária no primeiro parágrafo, incluindo: - Nome e localização do banco recebedor (First National Trust Bank, Chicago, IL) - Número ABA/Roteamento: 0710003 - Número da Conta: 4827093 - Nome da Conta: Marcus T. Holdings LLC

Então, ele está interpretando o exemplo como parte da postagem que deveria avaliar. Os exemplos estão sendo enviados corretamente, com uma explicação como “Aqui estão alguns exemplos…”?

Em vez de instruir seu modelo a retornar strings, você pode usar o tipo automation de Triagem com Agente de IA e, em seguida, conceder a esse agente acesso à ferramenta flag.

Depois, instrua o agente a chamar a ferramenta quando suas condições forem atendidas.

Você tem razão, essa é uma solução mais limpa, e eu fiz isso, mas não resolve o problema. Ainda assim, ele sinaliza cada post. Ele não está entendendo que o exemplo é apenas um exemplo.

Configurações de Automação


Configurações do Agente




Ele sinaliza cada post, citando o texto do exemplo

  1. Qual LLM você está usando?

  2. Esses exemplos estão errados. Eles são enviados como rodadas anteriores antes da sua mensagem, por isso precisam imitar exatamente a resposta esperada do LLM. Se o exemplo for de uma situação em que você deseja uma chamada de ferramenta, a resposta deve imitar uma chamada de ferramenta do LLM. Dito isso, seu caso de uso é tão simples que qualquer LLM atual deve ser capaz de resolver em um único prompt (one-shot) sem exemplos, basta um prompt claro indicando quando chamar a ferramenta.

Estou usando o Sonnet 4.5, que concordo não deveria precisar de exemplos para este caso simples. Mas para casos mais complexos, como “mimicar uma chamada de ferramenta do LLM”? O que devo digitar nas caixas de exemplo? Existem exemplos de exemplos em algum lugar?