Caracteres russos na lista de Palavras Monitoradas não estão sendo identificados corretamente

CCP_Aurora · Fevereiro 9, 2021, 12:48pm

Tenho expandido a lista de palavras monitoradas para nossa empresa e encontrei um problema estranho. Gostaríamos de poder usar a lista de palavras monitoradas para todos os idiomas suportados, mas ela está sinalizando indevidamente certas palavras que são aceitáveis em russo, pois parece não estar detectando todos os caracteres da palavra.

Exemplo 1: Palavras monitoradas normais com caracteres em inglês funcionam corretamente

Exemplo 2: Se eu adicionar um caractere no início disso, ele deixa de ser sinalizado (o que está funcionando conforme o previsto)

Exemplo 3: Mas, para certos caracteres russos, as letras parecem idênticas aos caracteres em inglês, mas eles parecem ter um Unicode diferente que faz com que não apareçam.

A palavra “абля” está sendo sinalizada indevidamente, mesmo não estando na lista. Excluir e reescrever o “a” usando um teclado em inglês faz com que a palavra deixe de ser sinalizada (provavelmente devido a uma codificação diferente do caractere). Isso está resultando na sinalização indevida de palavras perfeitamente aceitáveis, o que é indesejado.

Outro exemplo é “себ”, que está sendo sinalizado da mesma maneira, quando apenas “еб” está na lista de palavras monitoradas.

Se alguém tiver sugestões de alternativas para contornar isso, ficarei feliz em ouvir! Obrigado

sam · Fevereiro 10, 2021, 6:24am

Olá @CCP_Aurora, vamos verificar. Lembro-me de que fazer as expressões regulares funcionarem corretamente com Unicode e lidar adequadamente com os limites foi uma verdadeira aventura. Isso certamente parece ser um bug.

@gerhard também pode ter algumas ideias; lembro-me de que ele trabalhou em problemas semelhantes no passado.

Tópico		Respostas	Visualizações
Hope Watched words adds support for non-English characters Bug	1	89	16 de Fevereiro de 2026
Test Watched Words is Broken Bug watched-words	2	540	9 de Junho de 2023
Accented characters cause false postives in Watched Words Bug watched-words	2	490	18 de Maio de 2023
Watched words: in Persian, content is affected without containing the word Support	6	781	9 de Maio de 2019
Bypassing watched words with confusable character replacements Support watched-words	2	232	17 de Dezembro de 2024

Caracteres russos na lista de Palavras Monitoradas não estão sendo identificados corretamente

Tópicos relacionados