Los caracteres rusos en la lista de Palabras Observadas no se identifican correctamente.

He estado ampliando la lista de palabras vigiladas para nuestra empresa y he encontrado un problema extraño. Nos gustaría poder utilizar la lista de palabras vigiladas para todos los idiomas compatibles, pero está marcando incorrectamente ciertas palabras que son válidas en ruso, ya que parece no detectar todos los caracteres de la palabra.

Ejemplo 1: Las palabras vigiladas normales con caracteres en inglés funcionan correctamente

Ejemplo 2: Si añado un carácter al principio de esta, ya no la marca (lo cual es el comportamiento esperado)

Ejemplo 3: Pero para ciertos caracteres rusos, las letras parecen idénticas a las del inglés, pero parece que tienen un código Unicode diferente que hace que no aparezcan correctamente.

La palabra «абля» se marca incorrectamente aunque no esté en la lista. Si borro y vuelvo a escribir la «a» con un teclado en inglés, la palabra deja de ser marcada (probablemente debido a una codificación diferente del carácter). Esto está provocando que palabras perfectamente válidas se marquen incorrectamente, lo cual no es deseable.

Otro ejemplo es «себ», que también se marca incorrectamente de la misma manera, cuando solo «еб» está en la lista de palabras vigiladas.

Si alguien tiene sugerencias de soluciones alternativas, ¡me encantaría escucharlas! Gracias :slight_smile:

1 me gusta

Hola @CCP_Aurora, lo revisaremos. Recuerdo que lograr que las expresiones regulares funcionaran correctamente con Unicode y manejaran los límites adecuadamente fue toda una aventura. Esto definitivamente parece un error.

@gerhard también podría tener algunas ideas; recuerdo que trabajó en problemas similares en el pasado.

4 Me gusta