Символы русского языка в списке «Смотримые слова» не определяются корректно

Я расширил список отслеживаемых слов для нашей компании и столкнулся с необычной проблемой. Мы хотели бы использовать список отслеживаемых слов для всех поддерживаемых языков, но он некорректно помечает определённые слова, которые в русском языке допустимы, поскольку, похоже, не распознаёт все символы в слове.

Пример 1: Обычные отслеживаемые слова с английскими символами работают корректно.

Пример 2: Если добавить символ в начало этого слова, оно больше не помечается (что соответствует ожидаемому поведению).

Пример 3: Однако для некоторых русских букв, которые визуально идентичны английским, их кодировка Unicode отличается, из-за чего они не распознаются.

Слово «абля» некорректно помечается, хотя его нет в списке. Удаление и повторный ввод буквы «а» с английской клавиатуры приводит к тому, что слово больше не помечается (вероятно, из-за различий в кодировке символа). В результате совершенно допустимые слова помечаются ошибочно, чего мы хотим избежать.

Другой пример: слово «себ» также некорректно помечается аналогичным образом, хотя в списке отслеживаемых слов находится только «еб».

Если у кого-то есть предложения по обходу этой проблемы, буду рад услышать их! Спасибо :slight_smile:

1 лайк

Привет, @CCP_Aurora, мы посмотрим. Помню, что заставить регулярные выражения корректно работать с Unicode и правильно обрабатывать границы было настоящим приключением. Это, безусловно, похоже на ошибку.

У @gerhard тоже могут быть идеи, я помню, что он ранее работал над похожими проблемами.

4 лайка