Улучшение слов: похожие символы Unicode

markersocial · 05.Август.2019 03:00:09

По словам, за которыми ведётся наблюдение, я думаю, что можно было бы улучшить функционал, добавив соответствие похожим символам Unicode.

Например:
abcabcabc
𝘢𝘣𝘤𝘢𝘣𝘤𝘢𝘣𝘤
𝒂𝒃𝒄𝒂𝒃𝒄𝒂𝒃𝒄
ab𝘤𝘢𝘣𝒄𝒂𝒃𝒄

Это фактически позволяет спамерам создавать множество вариаций одних и тех же слов, чтобы обойти фильтр слов. Я столкнулся с настойчивыми и изобретательными спамерами, которые серьёзно испытывают возможности анти-спам функций Discourse на пределе. Это один из используемых ими приёмов.

Возможно, это может быть полезно: GitHub - janlelis/unicode-confusable: Unicode::Confusable.confusable? "ℜսᖯʏ", "Ruby" · GitHub

codinghorror · 05.Август.2019 03:07:35

Это не «шрифт», это другой набор символов Unicode.

markersocial · 05.Август.2019 03:17:02

Ах, моя ошибка, спасибо за исправление. Обновил пост.

codinghorror · 05.Август.2019 04:00:07

Маловероятно, поскольку такой вид сопоставления Unicode по принципу «выглядит как» чрезвычайно дорог по затратам процессорного времени и очень капризен в реализации, ведь кто решает, что «выглядит как» что-то другое?

Предлагаю рассмотреть другие способы борьбы с этими спамерами.

А пока просто добавляйте по мере необходимости распространённые вариации спам-терминов, использующие разные символы Unicode.

Тема		Ответов	Просм.
Bypassing watched words with confusable character replacements Support watched-words	2	227	17.12.2024
Russian characters in Watched Words list are failing to be properly identified Bug watched-words	1	553	10.02.2021
Watched words to block recent spam attack Sysadmins watched-words , spam	12	405	10.09.2025
Hope Watched words adds support for non-English characters Bug	1	85	16.02.2026
Accented characters cause false postives in Watched Words Bug watched-words	2	485	18.05.2023

Улучшение слов: похожие символы Unicode

Связанные темы