Символы русского языка в списке «Смотримые слова» не определяются корректно

CCP_Aurora · 09.Февраль.2021 12:48:23

Я расширил список отслеживаемых слов для нашей компании и столкнулся с необычной проблемой. Мы хотели бы использовать список отслеживаемых слов для всех поддерживаемых языков, но он некорректно помечает определённые слова, которые в русском языке допустимы, поскольку, похоже, не распознаёт все символы в слове.

Пример 1: Обычные отслеживаемые слова с английскими символами работают корректно.

Пример 2: Если добавить символ в начало этого слова, оно больше не помечается (что соответствует ожидаемому поведению).

Пример 3: Однако для некоторых русских букв, которые визуально идентичны английским, их кодировка Unicode отличается, из-за чего они не распознаются.

Слово «абля» некорректно помечается, хотя его нет в списке. Удаление и повторный ввод буквы «а» с английской клавиатуры приводит к тому, что слово больше не помечается (вероятно, из-за различий в кодировке символа). В результате совершенно допустимые слова помечаются ошибочно, чего мы хотим избежать.

Другой пример: слово «себ» также некорректно помечается аналогичным образом, хотя в списке отслеживаемых слов находится только «еб».

Если у кого-то есть предложения по обходу этой проблемы, буду рад услышать их! Спасибо

sam · 10.Февраль.2021 06:24:50

Привет, @CCP_Aurora, мы посмотрим. Помню, что заставить регулярные выражения корректно работать с Unicode и правильно обрабатывать границы было настоящим приключением. Это, безусловно, похоже на ошибку.

У @gerhard тоже могут быть идеи, я помню, что он ранее работал над похожими проблемами.

Тема		Ответов	Просм.
Hope Watched words adds support for non-English characters Bug	1	85	16.02.2026
Test Watched Words is Broken Bug watched-words	2	538	09.06.2023
Accented characters cause false postives in Watched Words Bug watched-words	2	485	18.05.2023
Watched words: in Persian, content is affected without containing the word Support	6	780	09.05.2019
Bypassing watched words with confusable character replacements Support watched-words	2	227	17.12.2024

Символы русского языка в списке «Смотримые слова» не определяются корректно

Связанные темы