Улучшение слов: похожие символы Unicode

По словам, за которыми ведётся наблюдение, я думаю, что можно было бы улучшить функционал, добавив соответствие похожим символам Unicode.

Например:
abcabcabc
𝘢𝘣𝘤𝘢𝘣𝘤𝘢𝘣𝘤
𝒂𝒃𝒄𝒂𝒃𝒄𝒂𝒃𝒄
ab𝘤𝘢𝘣𝒄𝒂𝒃𝒄

Это фактически позволяет спамерам создавать множество вариаций одних и тех же слов, чтобы обойти фильтр слов. Я столкнулся с настойчивыми и изобретательными спамерами, которые серьёзно испытывают возможности анти-спам функций Discourse на пределе. Это один из используемых ими приёмов.

Возможно, это может быть полезно: GitHub - janlelis/unicode-confusable: Unicode::Confusable.confusable? "ℜսᖯʏ", "Ruby" · GitHub

2 лайка

Это не «шрифт», это другой набор символов Unicode.

2 лайка

Ах, моя ошибка, спасибо за исправление. Обновил пост.

Маловероятно, поскольку такой вид сопоставления Unicode по принципу «выглядит как» чрезвычайно дорог по затратам процессорного времени и очень капризен в реализации, ведь кто решает, что «выглядит как» что-то другое? :thinking:

Предлагаю рассмотреть другие способы борьбы с этими спамерами.

А пока просто добавляйте по мере необходимости распространённые вариации спам-терминов, использующие разные символы Unicode.

3 лайка