Observado: Mejora de palabras -- caracteres unicode con apariencia similar

Para las palabras vigiladas, creo que se podría mejorar si también coincidieran caracteres Unicode similares.

Por ejemplo:
abcabcabc
𝘢𝘣𝘤𝘢𝘣𝘤𝘢𝘣𝘤
𝒂𝒃𝒄𝒂𝒃𝒄𝒂𝒃𝒄
ab𝘤𝘢𝘣𝒄𝒂𝒃𝒄

Esto permitiría esencialmente a los spammers tener muchas variaciones de las mismas palabras para eludir el filtro de palabras. He estado siendo bombardeado por spammers astutos y motivados, por lo que realmente han estado llevando las funciones anti-spam de Discourse al límite absoluto. Esta es una de las técnicas que están utilizando.

Quizás esto podría ser útil: GitHub - janlelis/unicode-confusable: Unicode::Confusable.confusable? "ℜսᖯʏ", "Ruby" · GitHub

2 Me gusta

Eso no es una “fuente”, es un conjunto diferente de caracteres Unicode.

2 Me gusta

Ah, mi error, gracias por la corrección. He actualizado el post.

Poco probable, ya que ese tipo de coincidencia de unicode que “se parece a” es extremadamente costosa en tiempo de CPU y también muy delicada de implementar correctamente, porque ¿quién decide qué “se parece” a otra cosa? :thinking:

Te sugiero que consideres otros métodos para lidiar con estos spammers.

Mientras tanto, simplemente agrega variaciones comunes de los términos de spam según sea necesario en diferentes caracteres unicode.

3 Me gusta