Los caracteres rusos en la lista de Palabras Observadas no se identifican correctamente.

CCP_Aurora · 9 Febrero, 2021 12:48

He estado ampliando la lista de palabras vigiladas para nuestra empresa y he encontrado un problema extraño. Nos gustaría poder utilizar la lista de palabras vigiladas para todos los idiomas compatibles, pero está marcando incorrectamente ciertas palabras que son válidas en ruso, ya que parece no detectar todos los caracteres de la palabra.

Ejemplo 1: Las palabras vigiladas normales con caracteres en inglés funcionan correctamente

Ejemplo 2: Si añado un carácter al principio de esta, ya no la marca (lo cual es el comportamiento esperado)

Ejemplo 3: Pero para ciertos caracteres rusos, las letras parecen idénticas a las del inglés, pero parece que tienen un código Unicode diferente que hace que no aparezcan correctamente.

La palabra «абля» se marca incorrectamente aunque no esté en la lista. Si borro y vuelvo a escribir la «a» con un teclado en inglés, la palabra deja de ser marcada (probablemente debido a una codificación diferente del carácter). Esto está provocando que palabras perfectamente válidas se marquen incorrectamente, lo cual no es deseable.

Otro ejemplo es «себ», que también se marca incorrectamente de la misma manera, cuando solo «еб» está en la lista de palabras vigiladas.

Si alguien tiene sugerencias de soluciones alternativas, ¡me encantaría escucharlas! Gracias

sam · 10 Febrero, 2021 06:24

Hola @CCP_Aurora, lo revisaremos. Recuerdo que lograr que las expresiones regulares funcionaran correctamente con Unicode y manejaran los límites adecuadamente fue toda una aventura. Esto definitivamente parece un error.

@gerhard también podría tener algunas ideas; recuerdo que trabajó en problemas similares en el pasado.

Tema		Respuestas	Vistas
Hope Watched words adds support for non-English characters Bug	1	89	16 Febrero 2026
Test Watched Words is Broken Bug watched-words	2	540	9 Junio 2023
Accented characters cause false postives in Watched Words Bug watched-words	2	490	18 Mayo 2023
Watched words: in Persian, content is affected without containing the word Support	6	781	9 Mayo 2019
Bypassing watched words with confusable character replacements Support watched-words	2	232	17 Diciembre 2024

Los caracteres rusos en la lista de Palabras Observadas no se identifican correctamente.

Temas relacionados