Observado: Mejora de palabras -- caracteres unicode con apariencia similar

markersocial · 5 Agosto, 2019 03:00

Para las palabras vigiladas, creo que se podría mejorar si también coincidieran caracteres Unicode similares.

Por ejemplo:
abcabcabc
𝘢𝘣𝘤𝘢𝘣𝘤𝘢𝘣𝘤
𝒂𝒃𝒄𝒂𝒃𝒄𝒂𝒃𝒄
ab𝘤𝘢𝘣𝒄𝒂𝒃𝒄

Esto permitiría esencialmente a los spammers tener muchas variaciones de las mismas palabras para eludir el filtro de palabras. He estado siendo bombardeado por spammers astutos y motivados, por lo que realmente han estado llevando las funciones anti-spam de Discourse al límite absoluto. Esta es una de las técnicas que están utilizando.

Quizás esto podría ser útil: GitHub - janlelis/unicode-confusable: Unicode::Confusable.confusable? "ℜսᖯʏ", "Ruby" · GitHub

codinghorror · 5 Agosto, 2019 03:07

Eso no es una “fuente”, es un conjunto diferente de caracteres Unicode.

markersocial · 5 Agosto, 2019 03:17

Ah, mi error, gracias por la corrección. He actualizado el post.

codinghorror · 5 Agosto, 2019 04:00

Poco probable, ya que ese tipo de coincidencia de unicode que “se parece a” es extremadamente costosa en tiempo de CPU y también muy delicada de implementar correctamente, porque ¿quién decide qué “se parece” a otra cosa?

Te sugiero que consideres otros métodos para lidiar con estos spammers.

Mientras tanto, simplemente agrega variaciones comunes de los términos de spam según sea necesario en diferentes caracteres unicode.

Tema		Respuestas	Vistas
Bypassing watched words with confusable character replacements Support watched-words	2	232	17 Diciembre 2024
Russian characters in Watched Words list are failing to be properly identified Bug watched-words	1	555	10 Febrero 2021
Watched words to block recent spam attack Sysadmins watched-words , spam	12	415	10 Septiembre 2025
Hope Watched words adds support for non-English characters Bug	1	87	16 Febrero 2026
Accented characters cause false postives in Watched Words Bug watched-words	2	489	18 Mayo 2023

Observado: Mejora de palabras -- caracteres unicode con apariencia similar

Temas relacionados