Surveillance des améliorations de mots -- caractères Unicode visuellement similaires

Pour les mots surveillés, je pense que cela pourrait être amélioré si des caractères Unicode similaires étaient également pris en compte.

Par exemple :
abcabcabc
𝘢𝘣𝘤𝘢𝘣𝘤𝘢𝘣𝘤
𝒂𝒃𝒄𝒂𝒃𝒄𝒂𝒃𝒄
ab𝘤𝘢𝘣𝒄𝒂𝒃𝒄

Cela permet essentiellement aux spammeurs de créer de nombreuses variations d’un même mot pour contourner le filtre de mots. J’ai été submergé par des spammeurs rusés et motivés, ce qui a vraiment poussé les fonctionnalités anti-spam de Discourse à leurs limites absolues. C’est l’une des techniques qu’ils utilisent.

Cela pourrait être utile : GitHub - janlelis/unicode-confusable: Unicode::Confusable.confusable? "ℜսᖯʏ", "Ruby" · GitHub

2 « J'aime »

Ce n’est pas une « police », c’est un ensemble différent de caractères Unicode.

2 « J'aime »

Ah, désolé, merci pour la correction. J’ai mis à jour le post.

Peu probable, car ce type de correspondance de type « ressemble à » avec l’Unicode est extrêmement coûteux en temps CPU et très délicat à mettre en œuvre correctement, car qui décide de ce qui « ressemble à » autre chose ? :thinking:

Je vous suggère d’envisager d’autres méthodes pour faire face à ces spammers.

En attendant, ajoutez simplement les variations courantes des termes de spam, au besoin, en utilisant différents caractères Unicode.

3 « J'aime »