Caracteres russos na lista de Palavras Monitoradas não estão sendo identificados corretamente

Tenho expandido a lista de palavras monitoradas para nossa empresa e encontrei um problema estranho. Gostaríamos de poder usar a lista de palavras monitoradas para todos os idiomas suportados, mas ela está sinalizando indevidamente certas palavras que são aceitáveis em russo, pois parece não estar detectando todos os caracteres da palavra.

Exemplo 1: Palavras monitoradas normais com caracteres em inglês funcionam corretamente

Exemplo 2: Se eu adicionar um caractere no início disso, ele deixa de ser sinalizado (o que está funcionando conforme o previsto)

Exemplo 3: Mas, para certos caracteres russos, as letras parecem idênticas aos caracteres em inglês, mas eles parecem ter um Unicode diferente que faz com que não apareçam.

A palavra “абля” está sendo sinalizada indevidamente, mesmo não estando na lista. Excluir e reescrever o “a” usando um teclado em inglês faz com que a palavra deixe de ser sinalizada (provavelmente devido a uma codificação diferente do caractere). Isso está resultando na sinalização indevida de palavras perfeitamente aceitáveis, o que é indesejado.

Outro exemplo é “себ”, que está sendo sinalizado da mesma maneira, quando apenas “еб” está na lista de palavras monitoradas.

Se alguém tiver sugestões de alternativas para contornar isso, ficarei feliz em ouvir! Obrigado :slight_smile:

1 curtida

Olá @CCP_Aurora, vamos verificar. Lembro-me de que fazer as expressões regulares funcionarem corretamente com Unicode e lidar adequadamente com os limites foi uma verdadeira aventura. Isso certamente parece ser um bug.

@gerhard também pode ter algumas ideias; lembro-me de que ele trabalhou em problemas semelhantes no passado.

4 curtidas