Let us know if you’re still seeing this today.
Yes, still seeing it.
For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.
También hemos visto esto en nuestro sitio, o al menos el precursor de ello. Nuestros usuarios y el personal han sido bastante rápidos hasta ahora en detectar el material plagiado fuera de lugar y han marcado las publicaciones como sospechosas antes de que el spammer añadiera enlaces de spam.
¿Podría automatizarse esto para las primeras publicaciones? Sería genial poder marcar los nuevos hilos que contengan copias exactas de publicaciones existentes.
No en este momento; contrastar un solo post con el texto de literalmente cada otro post que se haya publicado es… bastante costoso.
Como regla general, cualquier post extraño y sin relación con el contexto de nuevos usuarios debe ser examinado con bastante escepticismo. Esto me lo detecta la mayoría de las veces.
Esto funciona bien para las respuestas, pero no tan bien para los nuevos hilos. Dado que nuestro foro ofrece soporte, la mayoría de los nuevos usuarios hacen preguntas que se parecen bastante a otras que ya han sido planteadas (y a veces las preguntas están copiadas de otros sitios, como Reddit, aunque muchas también están copiadas de nuestro propio sitio).
Sí, esas son extremadamente difíciles de rastrear. He visto algunas de ellas en otro Discourse.
¿Son copias exactas o están modificadas de alguna manera?
En nuestro caso, el cuerpo ha sido copiado casi exactamente. A menudo se pierde el formato, pero no siempre. A veces solo se trata de una parte del mensaje. También siempre han sido nuevos hilos. El título, por alguna razón, a veces ha sido el mismo y otras veces inexplicablemente ha sido el título original con la palabra “nombre” añadida al final. Estoy de acuerdo en que esto parece impulsado por humanos: creo que alguien lo está copiando y pegando manualmente, y este proceso es con pérdida. Por lo tanto, no, una verificación simple de hash no funcionará en casi todos los casos.
Aún no hemos visto que este esquema se concrete, sea lo que sea. En un caso, nos perdimos un mensaje durante 14 días y nunca se volvió a tratar. Lo encontré a través de una IP compartida con otra cuenta que hacía lo mismo. También tenemos nuestras configuraciones de spam ajustadas al mínimo porque, incluso con estos mensajes extraños, casi nunca tenemos spam real. Los usuarios TL0 pueden publicar enlaces salientes e imágenes inmediatamente. Pueden editar mensajes. Entonces, ¿por qué esta farsa? Es todo muy extraño.
Edición: ah, la farsa es porque no solo evitan el filtro de spam automático, sino que también evitan la atención (y las señales) de la comunidad activa, ya que las ediciones no reactivan el tema a menos que también sea el mensaje más reciente. Por lo tanto, para ser efectivos, no solo deben parecer inofensivos, sino que también deben generar una respuesta.
Al igual que Matt, las nuestras son mayormente exactas, pero a menudo con algún formato perdido o un subconjunto de la publicación. Este tipo de spam lo vemos principalmente en nuevos hilos, pero también en algunas respuestas fuera de tema en hilos existentes.
No recuerdo los detalles, pero creo que a veces también modificaban los enlaces o URLs que estaban en las publicaciones originales. Supongo que fue para sortear los nuevos límites de enlaces para nuevos usuarios y porque nadie quiere hacer spam en el sitio web de otra persona.
(Modificarían aún más los enlaces originales al editar el spam más adelante.)
(Edición: ¡Tres Matts!)
¡Buenas noticias! Hemos añadido una función para ayudar con esto: los niveles de confianza más bajos tienen menos tiempo para editar publicaciones. Eso debería ayudar a mitigar las travesuras relacionadas con las ediciones.
Como puedes ver, los usuarios de TL0 y TL1 ahora tienen un límite predeterminado de 1 día de tiempo de edición @jsha @mnordhoff y @mbauman; quizás quieras reducirlo aún más.
¡Gracias! También he modificado una consulta del Explorador de Datos para proporcionar una agradable tabla de “ediciones obsoletas” que los administradores pueden revisar ocasionalmente:
SELECT
p.id AS post_id,
p.updated_at,
(p.updated_at - p.created_at) AS staleness,
u.trust_level,
(p.cooked LIKE '%href%') AS has_links
FROM posts p
JOIN users u
ON u.id = p.user_id
JOIN topics t
ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
AND p.self_edits > 0
AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
AND p.deleted_at IS NULL
AND t.deleted_at IS NULL
AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500
¡Eso es fantástico! Muchas gracias. Hemos adelantado nuestro “límite de tiempo para editar publicaciones” a 1 día (1440 minutos) y lo mantendremos así por ahora. Pero acabo de aumentar el “límite de tiempo para editar publicaciones de tl2” a 30 días (43200 minutos), lo que debería hacer las cosas mucho más agradables para nuestros usuarios activos. Agradecemos mucho el trabajo y la dedicación que el equipo de Discourse ha puesto en esto.
¡Fantástico! Avísanos cómo te va. Te sugiero que podrías reducir el límite de edición predeterminado a menos de un día, ahora que los niveles TL2 y superiores tienen una configuración separada.
Sugeriría añadir la siguiente línea a la cláusula Where:
AND p.cooked ~ 'href="http[s]?://'
Esto busca solo las publicaciones que contienen enlaces. Uno de los atributos de este tipo de spam es la inclusión de enlaces.
Es interesante que exista una consulta del explorador de datos para buscar “ediciones obsoletas” que puedan revisarse en busca de spam. La miré pero no encontré nada obviamente malo aquí en meta. La consulta ya tiene en cuenta los enlaces.
Ahora tenemos detección de spam con IA. ¡La recomiendo encarecidamente!
