观察字词改进 -- 外观相似的 Unicode 字符

markersocial · 2019 年8 月 5 日 03:00

对于被监控的词语，我认为如果也能匹配相似的 Unicode 字符，功能将会得到改进。

例如：
abcabcabc
𝘢𝘣𝘤𝘢𝘣𝘤𝘢𝘣𝘤
𝒂𝒃𝒄𝒂𝒃𝒄𝒂𝒃𝒄
ab𝘤𝘢𝘣𝒄𝒂𝒃𝒄

这实际上允许垃圾邮件发送者使用同一词语的多种变体来绕过词语过滤器。我一直受到狡猾且动机明确的垃圾邮件发送者的猛烈攻击，因此他们已将 Discourse 的反垃圾邮件功能推到了极限。这是他们使用的技术之一。

codinghorror · 2019 年8 月 5 日 03:07

那不是‘字体’，而是一组不同的 Unicode 字符。

markersocial · 2019 年8 月 5 日 03:17

啊，我的错，谢谢纠正。已更新帖子。

codinghorror · 2019 年8 月 5 日 04:00

不太可能，因为那种基于 Unicode“看起来像”的匹配方式在 CPU 时间上极其昂贵，而且非常难以正确实现，毕竟由谁来决定什么“看起来像”另一个字符呢？

我建议你应该考虑其他方法来应对这些垃圾信息发送者。

在此期间，只需根据需要，在不同 Unicode 字符中添加常见的垃圾信息术语变体即可。

话题		回复	浏览量
Bypassing watched words with confusable character replacements Support watched-words	2	221	2024 年12 月 17 日
Russian characters in Watched Words list are failing to be properly identified Bug watched-words	1	553	2021 年2 月 10 日
Watched words to block recent spam attack Sysadmins watched-words , spam	12	390	2025 年9 月 10 日
Hope Watched words adds support for non-English characters Bug	1	84	2026 年2 月 16 日
Accented characters cause false postives in Watched Words Bug watched-words	2	477	2023 年5 月 18 日