Tengo curiosidad por saber si los miembros de la comunidad están experimentando algún tipo de spam impulsado por IA o un aumento del mismo.
Esto implicaría específicamente ver respuestas a preguntas que parecen basadas en ChatGPT y que parecen poco humanas o tienen alucinaciones (un problema común con los LLM).
Estoy experimentando spam basado en IA
Sí
No
0voters
Si la respuesta es sí, me gustaría saber…
¿Con qué frecuencia está sucediendo esto?
¿Qué problema está creando esto dentro de tu comunidad?
¿Qué estás haciendo actualmente al respecto?
Si la respuesta es no, me gustaría saber…
¿Cómo estás evitando que esto suceda?
¿Hay razones por las que tu comunidad inherentemente no enfrenta este problema?
Simplemente usamos la IA como una herramienta para buscar conocimiento, tal vez un poco de conversación informal.
Quizás nuestra comunidad es pequeña y tiene un sentido común de que las alucinaciones son MALAS.
Creo que la forma más eficaz de detener cualquier tipo de spam es ser miembro de un idioma muy pequeño y difícil. Detiene a esos payasos que realizan trabajos manuales.
Bueno, todos sabemos que los spammers no son tan inteligentes y el tráfico automático no se preocupa por el idioma, el género o incluso el tamaño. Por lo tanto, debe haber otra razón por la que algunos foros o sitios son como imanes para todo tipo de basura y otros viven sin drama.
Por la razón por la que los spammers pueden registrarse allí y no en otro lugar cuando el sistema y la configuración deberían ser idénticos, no tengo respuesta. Pero una cosa es segura: la necesidad del administrador o de otra fuerza de fondo de aumentar el crecimiento rápido de una audiencia global conducirá a problemas de bots y spam.
En las últimas dos semanas, más o menos, hemos visto un pico en nuestro sitio. Estamos viendo spam típico con enlaces ocultos en nuevas respuestas de cuentas nuevas. Cuando aumentamos la reputación por crear nuevas publicaciones, vimos un aumento en las respuestas generadas por IA, y parecía que los bots estaban tratando de aumentar lentamente su reputación en cuentas falsas. Estas respuestas no tienen enlaces obviamente falsos, solo tienen texto genérico de IA que no contribuye a responder la pregunta.
Nos golpeó durante un fin de semana una gran cantidad de publicaciones de spam, lo suficiente como para que alguien creara un nuevo tema diciendo que había demasiado spam en nuestro foro. Desde entonces, los administradores deben revisar el sitio todos los días para limpiar publicaciones falsas de IA. También estamos viendo publicaciones de IA en cuentas que se crearon en el pasado y no tuvieron actividad, lo que hace que parezca que algunos bots de spam han estado sembrando cuentas durante un tiempo y dejándolas inactivas. Ahora están tratando de superar lentamente los límites de participación para poder publicar nuevos temas.
Como se mencionó anteriormente, aumentamos los niveles de confianza para publicar nuevos temas. También habilitamos Akismet. Pero esto no ha detenido las publicaciones de spam de IA. Actualmente, necesitamos que un administrador/moderador revise el foro todos los días para revisar las publicaciones marcadas y limpiarlas. Algunas son desafiantes y parecen ser de una persona, por lo que dos personas deben revisar.
Animamos a nuestros usuarios a ayudar y marcar las publicaciones que parezcan de IA y eso ha ayudado.
Nuestro foro tiene un volumen bastante bajo y ha funcionado durante años con muy poca limpieza y mantenimiento por parte de los administradores, pero parece que los bots de IA nos han encontrado. ¿Estoy pensando que se necesita IA para detener la IA?
Sí, por desgracia. O eso, o simplemente verificas temporalmente a todos los usuarios nuevos y ralentizas el tiempo desde “cuando un usuario se registra” hasta que publica.
Tenemos:
También admite la marcación, por lo que podrías usarla hoy.
Todavía no he visto mucho, pero mi foro mantiene las primeras publicaciones en moderación, y normalmente puedo saber si alguien podría ser un spammer por ciertas pistas. Bloqueo las sospechosas en TL0 hasta que publican algo que está claramente en el tema.
No es un foro de “charlar sobre cosas aleatorias”, por lo que normalmente es posible saber si alguien está fingiendo interés por la primera publicación.
En realidad, acabo de encontrarme con un usuario que se ha colado y está publicando con ChatGPT u otra IA. Puede que haya más cuentas de spam que me haya saltado.
Algunas ideas sobre cómo combatirlo:
Crear una base de datos de proveedores de VPN. La dirección IP de este usuario es de “M247 Europe SRL”, que es un proveedor de servicios de VPN. Siempre he querido algún tipo de notificación de que una nueva cuenta está usando una VPN. Actualmente tengo que hacerlo manualmente.
Hacer un seguimiento del tiempo de lectura, los días de visita, los temas/publicaciones leídas. Este usuario pasó 8 minutos leyendo el sitio pero publicó 6 comentarios, y solo visitó 3 veces el día de su registro. El usuario en realidad todavía está en TL0 de forma natural, porque en realidad no ha hecho nada más que publicar comentarios.
Escribí más ideas en los comentarios de esta página.
Me pregunto si es posible clasificar aproximadamente a los usuarios por la relación entre el tiempo dedicado al sitio y el número de palabras escritas, además de otras señales como VPN, contenido pegado, contenido inyectado, etc. Las cuentas sospechosas podrían marcarse para su revisión.
Editar: esta rápida consulta de Data Explorer ha revelado algunas más, aunque algunas de ellas ya estaban suspendidas.
SELECT
u.id,
u.created_at,
u.username,
u.trust_level,
us.time_read,
us.days_visited,
us.topics_entered,
us.post_count,
us.topic_count
FROM users u
LEFT JOIN user_stats us
ON us.user_id = u.id
WHERE u.trust_level < 1
AND u.created_at > '2023-01-01'
AND us.time_read < 1000 -- segundos
AND us.post_count > 1
Uno por día. Patrón en foros con unos 2000 usuarios (500 por año nuevos):
Se registra un nuevo usuario con un dominio de correo electrónico de la categoría “dominio temporal” como “cetnob.com”.
En cuestión de horas, crea un nuevo tema o responde a uno existente.
Crea texto solo en las secciones en inglés (sitio bilingüe, con más del 90% NO en inglés).
A veces incluye una URL en el texto, a veces no.
El texto parece una pregunta o comentario real, utilizando palabras únicas del foro y material relevante.
Pero el texto parece ligeramente fuera de tema, aunque muy bueno: un ingeniero de soporte inexperto no podría detectarlo.
Se parece mucho en patrón al descrito en:
Ya estamos bloqueando hotmail, gmail y otros dominios grandes orientados al consumidor utilizando una lista explícita, pero hay al menos 10.000 dominios conocidos por nosotros que se utilizan para este tipo de enfoque. En nuestro propio software tenemos una lista explícita más una verificación en tiempo real en UserCheck (utilizamos la variante gratuita y solo verificamos al registrarse en nuestras propias aplicaciones y caché, por lo que 5000 búsquedas por mes son suficientes).
Por lo que he visto, este comportamiento específico se puede abordar bloqueando automáticamente los dominios de correo electrónico temporales/spam.
Bloquear a TL0 para que no use enlaces no se considera realmente más viable que moderar todas las nuevas solicitudes, ya que muchos usuarios publican directamente después de registrarse por primera vez, siendo el sitio un portal de soporte.
No estoy seguro de si este enfoque resolverá todos los problemas, por ejemplo, para foros más grandes o foros que aceptan direcciones de correo electrónico de consumidores.
Últimamente estoy recibiendo muchos spammers de IA, y me lleva mucho tiempo revisarlos.
Con el spammer actual que estoy revisando, el texto está escrito en perfecto inglés, es una VPN, la dirección de correo electrónico está en StopForumSpam y puedo decir que el contenido fue copiado/pegado porque el guion que se utilizó no existe en los teclados. Tuve que comprobar todo eso manualmente y todavía tengo varios más que revisar esta mañana.
Pensando en otra idea:
Cuando se guarda una publicación, Discourse podría registrar datos adicionales en un campo JSONB en esa publicación:
Dirección IP
¿es_vpn? — una búsqueda en maxmind para encontrar la organización y ver si es una VPN (por ejemplo, PacketHub S.A.)
Una búsqueda rápida de la dirección de correo electrónico en StopForumSpam
Una comparación del número de caracteres generados en el editor frente al número de caracteres que producen salida escritos (excluyendo teclas como flecha, ctrl, etc.). Por ejemplo, el usuario generó 1.000 caracteres en el contenido sin formato, pero solo presionó teclas que producen salida 10 veces (lo que sugiere que el contenido fue pegado y el usuario luego podría haber editado una palabra).
Número de veces que el contenido fue copiado o cortado usando atajos de teclado o clic derecho.
Número de veces que el contenido fue pegado usando atajos de teclado o clic derecho. La diferencia en los números de copia/pegado proporcionaría otra pista.
Los moderadores podrían ver esos datos en las publicaciones en una pequeña tabla. Los valores inusuales podrían resaltarse para que las publicaciones sospechosas destaquen.
Probablemente no exista un método perfecto para automatizar la detección, pero tener más información aceleraría el proceso de moderación.
No he utilizado IA en mis foros porque es cara. Tampoco estoy convencido de que la IA pudiera resolver este problema, porque el contenido parece normal. Aun así, tendría que investigar manualmente cada publicación sospechosa.
No he tenido problemas con contenido NSFW.
Mi problema no es que haya algo malo en el contenido. Lo único sospechoso es que los usuarios nuevos no escriben publicaciones así a los pocos minutos de registrarse, y el contenido también es algo vago. Mi foro principal tiene un tema muy específico, y si una primera publicación no dice algo específico sobre la relación de la persona con ese tema, inicio el proceso de investigación. De lo contrario, podría no notar sus publicaciones.
Aquí hay un par de ejemplos. El contenido es lo suficientemente vago como para que inicie el proceso de investigación, pero consume tiempo porque tengo que hacerlo manualmente.
No puedo prohibir a este usuario basándome solo en el contenido. Son las otras pistas las que me dicen que es un spammer.
Esta dirección IP era una VPN en Noruega, y el contenido era demasiado vago. Pude confirmarlo porque la dirección de correo electrónico estaba en StopForumSpam con una dirección IP de Alemania:
Solo estoy pensando en voz alta aquí, pero sería más rápido moderar a estos usuarios si hubiera una pequeña tabla en las publicaciones que dijera algo como:
ubicación
Oslo, Noruega [de maxmind]
organización
PacketHub S.A. [de maxmind]
es_vpn
true
correo electrónico
whatever@example [a veces esto da pistas]
stopforumspam
true [enlace]
caracteres_salida
1.234
caracteres_salida_presionados
10 [esto no coincide con el número de caracteres de la publicación, por lo que es una pista]
num_cortar_o_copiar
0 [no se copió texto del editor]
num_pegar
1 [se hizo un pegado]
segundos_editor_abierto
20 [sospechoso para una publicación de esa longitud]
Quizás la tabla podría colapsarse a menos que haya un valor sospechoso y/o los moderadores pudieran marcar a un usuario específico como “probablemente no es spam”, lo que colapsaría la tabla en todas sus publicaciones o detendría futuras búsquedas para ese usuario. O el usuario podría ser marcado automáticamente como seguro cuando alcance TL2.
Es una combinación de cosas:
La VPN o la dirección IP tienden a estar en un pequeño número de países donde hay muchas empresas de SEO (India, Pakistán, Ucrania, Vietnam, Bangladesh).
A veces, las direcciones de correo electrónico están en StopForumSpam.
Gran parte del contenido se pega en el editor, pero probablemente no todo.
Las direcciones de correo electrónico a menudo no coinciden con el nombre de usuario. Por ejemplo, el nombre de usuario será “Bob Smith” y la dirección de correo electrónico será algo diferente como stevenjohnee1234@example.
El contenido sin formato a veces utiliza caracteres de puntuación formateados como comillas inteligentes o guiones largos, lo que sugiere que el contenido no se escribió en el editor de Discourse.
Echa un vistazo a la publicación 1622105 aquí en este foro. Fue publicada 3 minutos después de registrarse, editada manualmente para cambiar el enlace de Quora a stackexchange, y el inglés es bueno, pero está hablando de tecnología que no es relevante para Discourse. No quiero enlazar a ella porque notificaría al autor.
Ese es el tipo de publicación en la que sería útil ver los datos que mencioné anteriormente directamente en la publicación.
Gran parte de esto se siente como experiencia del personal frente a la IA. Llamaré a las personas adecuadas para el tema.
Creo que suena convincente intentar reforzar parte de la detección de “escritura rápida” que ya tenemos. Tener SFS integrado en el núcleo también puede ser convincente.
Por supuesto, está la profunda pregunta filosófica:
¿Es spam si agrega valor al foro (incluso si es generado por IA)?
¿Debería eliminarse del foro si no agrega valor al foro (incluso si es generado por humanos)?
Creo que la sugerencia de hacer que más metadatos estén disponibles para los moderadores es buena. Independientemente de mejorar las funciones automáticas.
Dejo algunas publicaciones de spammers en línea cuando provocan discusión, pero la mayoría son eliminadas. La calidad es muy baja y a menudo es fácil saber cuándo algo está escrito por IA. Si siento que algo que estoy leyendo es IA, empiezo a perder la confianza en la fuente. No soy un ludita de la IA, pero no quiero leer contenido generado por IA a menos que sepa que es generado por IA.
Si veo que alguien está usando IA en el foro, lo detengo de inmediato porque el contenido confiable es uno de los activos más importantes del foro.
Además, lo que parece pasable para los humanos en 2024 podría ser fácil de detectar como IA para las personas en 2034, de manera similar a cómo los efectos de las películas que una vez parecían realistas hace décadas ahora son detectables como falsos. Creo que el contenido generado por IA de 2024 se verá anticuado eventualmente.