观察字词改进 -- 外观相似的 Unicode 字符

对于被监控的词语,我认为如果也能匹配相似的 Unicode 字符,功能将会得到改进。

例如:
abcabcabc
𝘢𝘣𝘤𝘢𝘣𝘤𝘢𝘣𝘤
𝒂𝒃𝒄𝒂𝒃𝒄𝒂𝒃𝒄
ab𝘤𝘢𝘣𝒄𝒂𝒃𝒄

这实际上允许垃圾邮件发送者使用同一词语的多种变体来绕过词语过滤器。我一直受到狡猾且动机明确的垃圾邮件发送者的猛烈攻击,因此他们已将 Discourse 的反垃圾邮件功能推到了极限。这是他们使用的技术之一。

或许这个资源会有帮助:GitHub - janlelis/unicode-confusable: Unicode::Confusable.confusable? "ℜսᖯʏ", "Ruby" · GitHub

2 个赞

那不是‘字体’,而是一组不同的 Unicode 字符。

2 个赞

啊,我的错,谢谢纠正。已更新帖子。

不太可能,因为那种基于 Unicode“看起来像”的匹配方式在 CPU 时间上极其昂贵,而且非常难以正确实现,毕竟由谁来决定什么“看起来像”另一个字符呢?:thinking:

我建议你应该考虑其他方法来应对这些垃圾信息发送者。

在此期间,只需根据需要,在不同 Unicode 字符中添加常见的垃圾信息术语变体即可。

3 个赞