He configurado la automatización “Clasificar publicaciones con IA” para la moderación de contenido en mi plataforma (madeira.community — un directorio empresarial multilingüe para la isla de Madeira).
La automatización funciona perfectamente para las publicaciones públicas. Sin embargo, habilité la opción “Incluir mensajes personales” y descubrí que los mensajes directos entre usuarios normales no se escanean en absoluto.
Mi preocupación es real: los actores malintencionados pueden utilizar mensajes privados para llevar a cabo actividades ilegales —tráfico de drogas, intercambio de datos financieros robados, acoso a menores—, eludiendo por completo la moderación con IA que funciona bien en el contenido público.
Mis preguntas:
¿La opción “Incluir mensajes personales” realmente soporta el escaneo de mensajes directos entre dos usuarios normales (no personal)?
Si no es así, ¿es esto por diseño o una limitación conocida?
¿Existe alguna forma soportada de aplicar la clasificación con IA a los mensajes privados entre usuarios normales?
Encontré una referencia a un commit “Saltar el escaneo de PM en la clasificación LLM de forma predeterminada”, lo que sugiere que esto podría ser intencional. Pero la opción de la interfaz de usuario existe, por lo que estoy confundido sobre lo que realmente hace.
“Lo probé enviando un mensaje privado entre dos usuarios normales (testUser a darinauser, ambos no son personal) con contenido claramente ilegal: ‘cocaína. armas. granadas’ y ‘pornografía. suciedad. depravación. violencia’. Los mensajes se entregaron y no fueron señalados. La Cola de Revisión permaneció vacía. El mismo contenido en publicaciones públicas fue señalado inmediatamente.”
Puedo confirmar que no fueron procesados; los IDs de tema de esos mensajes privados (210, 211, 212 y 214) y los IDs de publicación no están en la tabla ai_api_audit_logs.
Creo que “Tipo de tema” “Todos los temas” significa todos los temas que no son mensajes privados.
¿Podrías probar dejando ese campo vacío?
¡Eso funcionó! Gracias, Richard. Dejar el tipo de tema vacío lo solucionó; ahora se están escaneando los mensajes directos entre usuarios regulares.
Ahora planeo configurar dos automatizaciones separadas:
Una para publicaciones públicas con una instrucción de moderación estricta
Otra para mensajes privados con una instrucción más ligera, señalando solo las violaciones más graves (CSAM, tráfico de drogas, armas)
De esta manera, el contenido público recibe moderación completa, mientras que las conversaciones privadas tienen límites más adecuados.
La sección “Todos los temas” me hizo pensar que todo el contenido sería revisado.
Ni siquiera consideré que dejar el campo en blanco resultaría en que todo el contenido fuera revisado.
Creo que tener un único menú desplegable es bastante limitado y que tres opciones separadas serían mejores y, definitivamente, más claras para el usuario.
Temas públicos: sí/no
Temas no públicos: sí/no
Mensajes privados: sí/no
Hay 8 situaciones posibles y el menú desplegable solo cubre cuatro de ellas.