¿Los ejemplos de triaje de IA no se enviaron correctamente?

Tengo un agente para verificar información de transferencias bancarias en una publicación. (Eso es peligroso.) Le proporciono un ejemplo en la sección de Ejemplos.

Prompt del sistema

Inspecciona esta publicación en busca de información de transferencias bancarias, incluidos números de cuenta y números de ruta. Si la publicación parece contener información de transferencias, responde con la única palabra “flag”. De lo contrario, responde con la única palabra “ignore”.

Mensaje de usuario del Ejemplo 1

Hola a todos, solo quería compartir los detalles de la transferencia bancaria para la compra grupal que organizamos. Banco receptor: First National Trust Bank, Chicago, IL | Número ABA/Ruta: 0710003 | Número de cuenta: 4827093 | Nombre de la cuenta: Marcus T. Holdings LLC | Referencia: GroupBuy-2024-Q4.

Respuesta del modelo del Ejemplo 1

flag

Estaba marcando todas las publicaciones, ninguna de las cuales contenía información bancaria. Así que cambié el prompt del sistema para que me indicara la razón por la que respondía con “flag”, y obtuve esto en la cola de revisión:

Respuesta del modelo:

flag Esta publicación contiene información detallada de transferencias bancarias en el primer párrafo, incluyendo: - Nombre y ubicación del banco receptor (First National Trust Bank, Chicago, IL) - Número ABA/Ruta: 0710003 - Número de cuenta: 4827093 - Nombre de la cuenta: Marcus T. Holdings LLC

Así que está interpretando el ejemplo como parte de la publicación que debe evaluar. ¿Se están enviando los ejemplos correctamente, con una explicación como “Aquí hay algunos ejemplos…”?

En lugar de dar instrucciones a tu modelo para que devuelva cadenas de texto, puedes usar el tipo automation de Triaje con Agente de IA, y luego otorgar a este agente acceso a la herramienta flag.

Luego, instruyes al agente para que llame a la herramienta cuando se cumplan tus condiciones.

Tienes razón, esa es una solución más limpia, y ya lo hice, pero no resuelve el problema. Sigue marcando cada publicación. No entiende que el ejemplo es solo un ejemplo.

Configuración de automatización


Configuración del agente




Marca cada publicación, citando el texto del ejemplo

  1. What LLM are you using?

  2. Those examples are wrong. They are sent as previous turns before your message, so they need to mimick the exact expected LLM response. If the example is from a situation where you want a tool call, then the response should mimic a tool call from the LLM. That said, your use case is so simple that any current LLM should be able to one-shot it without examples, just with a clear prompt saying when to call the tool.

Estoy usando Sonnet 4.5, y coincido en que no debería necesitar ejemplos para este caso sencillo. Pero, ¿cómo se “simula una llamada a una herramienta desde el LLM” en casos más complejos? ¿Qué debería escribir en los cuadros de ejemplo? ¿Hay ejemplos de ejemplos en algún lugar?