Spam de copia y pega impulsado por humanos

codinghorror · 8 Junio, 2019 20:02

Let us know if you’re still seeing this today.

jsha · 9 Junio, 2019 18:51

Yes, still seeing it.

For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.

mbauman · 23 Agosto, 2019 14:48

También hemos visto esto en nuestro sitio, o al menos el precursor de ello. Nuestros usuarios y el personal han sido bastante rápidos hasta ahora en detectar el material plagiado fuera de lugar y han marcado las publicaciones como sospechosas antes de que el spammer añadiera enlaces de spam.

¿Podría automatizarse esto para las primeras publicaciones? Sería genial poder marcar los nuevos hilos que contengan copias exactas de publicaciones existentes.

codinghorror · 23 Agosto, 2019 23:35

No en este momento; contrastar un solo post con el texto de literalmente cada otro post que se haya publicado es… bastante costoso.

Como regla general, cualquier post extraño y sin relación con el contexto de nuevos usuarios debe ser examinado con bastante escepticismo. Esto me lo detecta la mayoría de las veces.

jsha · 30 Agosto, 2019 01:33

Esto funciona bien para las respuestas, pero no tan bien para los nuevos hilos. Dado que nuestro foro ofrece soporte, la mayoría de los nuevos usuarios hacen preguntas que se parecen bastante a otras que ya han sido planteadas (y a veces las preguntas están copiadas de otros sitios, como Reddit, aunque muchas también están copiadas de nuestro propio sitio).

codinghorror · 30 Agosto, 2019 01:59

Sí, esas son extremadamente difíciles de rastrear. He visto algunas de ellas en otro Discourse.

¿Son copias exactas o están modificadas de alguna manera?

mbauman · 30 Agosto, 2019 05:29

En nuestro caso, el cuerpo ha sido copiado casi exactamente. A menudo se pierde el formato, pero no siempre. A veces solo se trata de una parte del mensaje. También siempre han sido nuevos hilos. El título, por alguna razón, a veces ha sido el mismo y otras veces inexplicablemente ha sido el título original con la palabra “nombre” añadida al final. Estoy de acuerdo en que esto parece impulsado por humanos: creo que alguien lo está copiando y pegando manualmente, y este proceso es con pérdida. Por lo tanto, no, una verificación simple de hash no funcionará en casi todos los casos.

Aún no hemos visto que este esquema se concrete, sea lo que sea. En un caso, nos perdimos un mensaje durante 14 días y nunca se volvió a tratar. Lo encontré a través de una IP compartida con otra cuenta que hacía lo mismo. También tenemos nuestras configuraciones de spam ajustadas al mínimo porque, incluso con estos mensajes extraños, casi nunca tenemos spam real. Los usuarios TL0 pueden publicar enlaces salientes e imágenes inmediatamente. Pueden editar mensajes. Entonces, ¿por qué esta farsa? Es todo muy extraño.

Edición: ah, la farsa es porque no solo evitan el filtro de spam automático, sino que también evitan la atención (y las señales) de la comunidad activa, ya que las ediciones no reactivan el tema a menos que también sea el mensaje más reciente. Por lo tanto, para ser efectivos, no solo deben parecer inofensivos, sino que también deben generar una respuesta.

jsha · 30 Agosto, 2019 17:52

Al igual que Matt, las nuestras son mayormente exactas, pero a menudo con algún formato perdido o un subconjunto de la publicación. Este tipo de spam lo vemos principalmente en nuevos hilos, pero también en algunas respuestas fuera de tema en hilos existentes.

mnordhoff · 30 Agosto, 2019 17:58

No recuerdo los detalles, pero creo que a veces también modificaban los enlaces o URLs que estaban en las publicaciones originales. Supongo que fue para sortear los nuevos límites de enlaces para nuevos usuarios y porque nadie quiere hacer spam en el sitio web de otra persona.

(Modificarían aún más los enlaces originales al editar el spam más adelante.)

(Edición: ¡Tres Matts!)

codinghorror · 7 Septiembre, 2019 10:04

¡Buenas noticias! Hemos añadido una función para ayudar con esto: los niveles de confianza más bajos tienen menos tiempo para editar publicaciones. Eso debería ayudar a mitigar las travesuras relacionadas con las ediciones.

Como puedes ver, los usuarios de TL0 y TL1 ahora tienen un límite predeterminado de 1 día de tiempo de edición @jsha @mnordhoff y @mbauman; quizás quieras reducirlo aún más.

mbauman · 7 Septiembre, 2019 17:27

¡Gracias! También he modificado una consulta del Explorador de Datos para proporcionar una agradable tabla de “ediciones obsoletas” que los administradores pueden revisar ocasionalmente:

SELECT
    p.id AS post_id,
    p.updated_at,
    (p.updated_at - p.created_at) AS staleness,
    u.trust_level,
    (p.cooked LIKE '%href%') AS has_links
FROM posts p
    JOIN users u
        ON u.id = p.user_id
    JOIN topics t
        ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
    AND p.self_edits > 0
    AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
    AND p.deleted_at IS NULL
    AND t.deleted_at IS NULL
    AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500

jsha · 6 Noviembre, 2019 00:13

¡Eso es fantástico! Muchas gracias. Hemos adelantado nuestro “límite de tiempo para editar publicaciones” a 1 día (1440 minutos) y lo mantendremos así por ahora. Pero acabo de aumentar el “límite de tiempo para editar publicaciones de tl2” a 30 días (43200 minutos), lo que debería hacer las cosas mucho más agradables para nuestros usuarios activos. Agradecemos mucho el trabajo y la dedicación que el equipo de Discourse ha puesto en esto.

codinghorror · 6 Noviembre, 2019 00:57

¡Fantástico! Avísanos cómo te va. Te sugiero que podrías reducir el límite de edición predeterminado a menos de un día, ahora que los niveles TL2 y superiores tienen una configuración separada.

LotusJeff · 23 Julio, 2025 20:45

Sugeriría añadir la siguiente línea a la cláusula Where:

    AND p.cooked ~ 'href="http[s]?://'

Esto busca solo las publicaciones que contienen enlaces. Uno de los atributos de este tipo de spam es la inclusión de enlaces.

tobiaseigen · 24 Julio, 2025 22:58

Es interesante que exista una consulta del explorador de datos para buscar “ediciones obsoletas” que puedan revisarse en busca de spam. La miré pero no encontré nada obviamente malo aquí en meta. La consulta ya tiene en cuenta los enlaces.

Ahora tenemos detección de spam con IA. ¡La recomiendo encarecidamente!

Tema		Respuestas	Vistas
Spam bots tricking Discourse filter by editing Support	26	3347	9 Septiembre 2019
Free to edit post at any time Feature	33	15632	22 Mayo 2023
Diagnosing spam attack of 100 topics Feature	34	3117	29 Mayo 2017
People editing posts into spam Support	13	1463	20 Noviembre 2019
Editing Old Posts and Adding Links Doesn't Alert Anybody Feature	23	7812	7 Octubre 2014

Spam de copia y pega impulsado por humanos

Temas relacionados