Let us know if you’re still seeing this today.
Yes, still seeing it.
For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.
Nous avons également observé ce phénomène sur notre site — ou du moins ses prémices. Nos utilisateurs et notre équipe ont jusqu’ici été très rapides pour repérer les contenus plagiés qui ne correspondent pas au contexte et ont signalé les publications comme suspectes avant que le spammeur n’ajoute ses liens spam.
Cependant, est-il possible d’automatiser cela pour les premiers messages ? Ce serait formidable de pouvoir signaler automatiquement les nouveaux sujets contenant des copies exactes de publications existantes.
Pas pour le moment, vérifier un seul message contre le texte de littéralement tous les autres messages jamais publiés est… assez coûteux.
Tout message étrange et sans rapport avec le contexte provenant de nouveaux utilisateurs doit être examiné avec une grande méfiance en règle générale. Cela me permet de le détecter la plupart du temps.
Cela fonctionne bien pour les réponses, mais moins pour les nouveaux sujets. Étant donné que notre forum propose une assistance, la plupart des nouveaux utilisateurs posent des questions qui ressemblent beaucoup à d’autres déjà formulées (et parfois, ces questions sont copiées depuis d’autres sites comme Reddit, bien que beaucoup soient également copiées depuis notre propre site).
Oui, celles-là sont vicieusement difficiles à identifier. J’en ai vu quelques-unes moi-même sur un autre Discourse.
Sont-elles des copies exactes ou modifiées d’une manière ou d’une autre ?
Dans notre cas, le corps du message a été copié de manière quasi identique. La mise en forme est souvent perdue, mais pas toujours. Parfois, seule une partie du message est copiée. Il s’agit également toujours de nouveaux sujets. Pour une raison inconnue, le titre est parfois identique, et parfois il s’agit inexplicablement du titre original auquel le mot « name » a été ajouté à la fin. Je suis d’accord : cela semble être le fait d’une action humaine — je pense que quelqu’un copie et colle manuellement le contenu, et ce processus entraîne des pertes. Donc, non, une simple vérification par hachage ne fonctionnera pas dans la quasi-totalité des cas.
Nous n’avons pas encore vu ce schéma se concrétiser, quelle que soit sa nature. Dans un cas, nous avons manqué un message pendant 14 jours et il n’a jamais été suivi. Je l’ai découvert grâce à une adresse IP partagée avec un autre compte faisant la même chose. De plus, nos paramètres de filtrage du spam sont réglés au minimum car, même avec ces messages étranges, nous n’avons presque jamais de vrai spam. Les utilisateurs de niveau TL0 peuvent publier des liens sortants et des images immédiatement. Ils peuvent modifier leurs messages. Alors pourquoi cette mise en scène ? Tout cela est très étrange.
Édition : ah, la mise en scène s’explique parce qu’ils évitent non seulement le filtre anti-spam automatique, mais aussi l’attention (et les signalements) de la communauté active, car les modifications ne relancent pas le sujet sauf si c’est le message le plus récent. Ainsi, pour être efficaces, ils doivent non seulement paraître inoffensifs, mais aussi susciter une réponse.
Comme Matt, les nôtres sont pour la plupart exactes, mais comportent souvent une mise en forme perdue ou un sous-ensemble du message. Nous rencontrons ce type de spam principalement sur les nouveaux sujets, mais aussi dans certaines réponses hors sujet sur des sujets existants.
Je ne me souviens plus des détails, mais je crois qu’ils modifiaient parfois aussi les liens ou les URL contenus dans les messages d’origine. Je suppose que c’était pour contourner les nouvelles limites de liens pour les nouveaux membres et parce que personne ne veut faire du spam sur le site web de quelqu’un d’autre.
(Ils modifiaient encore davantage les liens d’origine lors de la modification ultérieure du spam.)
(Édité : Trois Matt !)
Bonne nouvelle ! Nous avons ajouté une fonctionnalité pour aider à cela : les niveaux de confiance inférieurs ont moins de temps pour modifier les messages. Cela devrait aider à atténuer les manigances liées aux modifications.
Comme vous pouvez le voir, les utilisateurs TL0 et TL1 sont désormais limités par défaut à 1 jour de temps de modification @jsha @mnordhoff et @mbauman — vous voudrez peut-être encore réduire cela.
Merci ! J’ai également modifié une requête Data Explorer pour fournir un joli tableau de « modifications obsolètes » que les administrateurs peuvent examiner occasionnellement :
SELECT
p.id AS post_id,
p.updated_at,
(p.updated_at - p.created_at) AS staleness,
u.trust_level,
(p.cooked LIKE '%href%') AS has_links
FROM posts p
JOIN users u
ON u.id = p.user_id
JOIN topics t
ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
AND p.self_edits > 0
AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
AND p.deleted_at IS NULL
AND t.deleted_at IS NULL
AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500
C’est formidable ! Merci beaucoup. Nous avons avancé notre « délai limite de modification de publication » à 1 jour (1440 minutes) et le maintiendrons ainsi pour l’instant. Mais je viens d’augmenter le « délai limite de modification de publication pour tl2 » à 30 jours (43200 minutes), ce qui devrait rendre les choses beaucoup plus agréables pour nos utilisateurs actifs. Nous apprécions vraiment le travail et la réflexion que l’équipe Discourse a consacrés à cela.
Fantastique ! Tenez-nous au courant de l’évolution. Je suggère que vous puissiez probablement réduire la limite d’édition par défaut à moins d’un jour, maintenant que les niveaux TL2 et supérieurs disposent d’un paramètre distinct.
Je suggérerais d’ajouter la ligne suivante à la clause Where :
AND p.cooked ~ 'href=\"http[s]?://'\
Ceci recherche uniquement les publications qui contiennent des liens. L’une des caractéristiques de ce type de spam est l’inclusion de liens.
Il est intéressant qu’il existe une requête d’explorateur de données pour rechercher des « modifications obsolètes » qui peuvent être examinées pour détecter le spam. Je l’ai examinée mais je n’ai rien trouvé de manifestement mauvais ici sur meta. La requête prend déjà en compte les liens.
Nous avons maintenant la détection de spam par IA. Je la recommande vivement !
