我正在扩展我们公司的“监控词”列表,发现了一个奇怪的问题。我们希望监控词列表能支持所有语言,但它却错误地标记了某些在俄语中完全正常的单词,似乎是因为它未能正确识别单词中的所有字符。
示例 1:包含英文字符的常规监控词工作正常。
示例 2:如果我在该词前面添加一个字符,它就不再被标记(这是预期行为)。
示例 3:但对于某些俄语字符,字母看起来与英文字符完全相同,但它们似乎拥有不同的 Unicode 编码,导致无法被正确识别。
单词“абля”被错误地标记,尽管它并不在列表中。如果在英文键盘上删除并重新输入字母“a”,该词就不再被标记(这可能是因为字符的编码不同)。这导致一些完全正常的单词被错误标记,这是我们不希望看到的情况。
另一个例子是“себ”被以同样的方式错误标记,而监控词列表中实际上只有“еб”。
如果任何人有解决此问题的变通方案,我很乐意听取!谢谢 ![]()


