Я расширил список отслеживаемых слов для нашей компании и столкнулся с необычной проблемой. Мы хотели бы использовать список отслеживаемых слов для всех поддерживаемых языков, но он некорректно помечает определённые слова, которые в русском языке допустимы, поскольку, похоже, не распознаёт все символы в слове.
Пример 1: Обычные отслеживаемые слова с английскими символами работают корректно.
Пример 2: Если добавить символ в начало этого слова, оно больше не помечается (что соответствует ожидаемому поведению).
Пример 3: Однако для некоторых русских букв, которые визуально идентичны английским, их кодировка Unicode отличается, из-за чего они не распознаются.
Слово «абля» некорректно помечается, хотя его нет в списке. Удаление и повторный ввод буквы «а» с английской клавиатуры приводит к тому, что слово больше не помечается (вероятно, из-за различий в кодировке символа). В результате совершенно допустимые слова помечаются ошибочно, чего мы хотим избежать.
Другой пример: слово «себ» также некорректно помечается аналогичным образом, хотя в списке отслеживаемых слов находится только «еб».
Если у кого-то есть предложения по обходу этой проблемы, буду рад услышать их! Спасибо ![]()


