Discourse AI - Detección de spam

Hemos realizado bastantes pruebas con esto y no parece que obtengamos resultados fiables en absoluto. Como contexto, estamos utilizando el modelo gpt-4o.

Para probar su precisión, le di las siguientes instrucciones sencillas:

Eres un sistema de detección de spam. Analiza el siguiente contenido y contexto.
Notas a continuación. Si *ALGUNO* de los elementos es verdadero a continuación, márcalo como spam:
- El nombre de usuario es muy específicamente "testjon", entonces es *SIEMPRE* spam.
- Responde solo con "SPAM - ¡Es Jon!" o "NO ES SPAM".

Al probar en una publicación, con el nombre de usuario testjon, el resultado es NO ES SPAM. Parece que no está prestando atención a las instrucciones en absoluto. ¿Alguna sugerencia?

¿Han tenido otros alguna experiencia buena o mala con la detección de spam por IA?