对于被监控的词语,我认为如果也能匹配相似的 Unicode 字符,功能将会得到改进。
例如:
abcabcabc
𝘢𝘣𝘤𝘢𝘣𝘤𝘢𝘣𝘤
𝒂𝒃𝒄𝒂𝒃𝒄𝒂𝒃𝒄
ab𝘤𝘢𝘣𝒄𝒂𝒃𝒄
这实际上允许垃圾邮件发送者使用同一词语的多种变体来绕过词语过滤器。我一直受到狡猾且动机明确的垃圾邮件发送者的猛烈攻击,因此他们已将 Discourse 的反垃圾邮件功能推到了极限。这是他们使用的技术之一。
或许这个资源会有帮助:GitHub - janlelis/unicode-confusable: Unicode::Confusable.confusable? "ℜսᖯʏ", "Ruby" · GitHub