Les caractères russes dans la liste des mots surveillés ne sont pas correctement identifiés

CCP_Aurora · Février 9, 2021, 12:48

J’ai élargi la liste des mots surveillés pour notre entreprise et j’ai découvert un problème étrange. Nous souhaiterions pouvoir utiliser la liste des mots surveillés pour toutes les langues prises en charge, mais elle signale incorrectement certains mots qui sont pourtant corrects en russe, car elle semble ne pas détecter tous les caractères du mot.

Exemple 1 : Les mots surveillés standards avec des caractères anglais fonctionnent correctement

Exemple 2 : Si j’ajoute un caractère au début, il n’est plus signalé (ce qui est le comportement attendu)

Exemple 3 : Mais pour certains caractères russes, les lettres semblent identiques aux caractères anglais, mais elles semblent avoir un Unicode différent qui empêche leur affichage.

Le mot « абля » est signalé à tort, même s’il ne figure pas dans la liste. Supprimer et retaper le « a » sur un clavier anglais fait que le mot n’est plus signalé (probablement en raison d’un codage différent du caractère). Cela entraîne le signalement incorrect de mots parfaitement corrects, ce qui n’est pas souhaité.

Un autre exemple est le mot « себ », signalé de la même manière, alors que seul « еб » figure dans la liste des mots surveillés.

Si quelqu’un a des suggestions de contournement, je serais ravi de les entendre ! Merci

sam · Février 10, 2021, 6:24

Bonjour @CCP_Aurora, nous allons examiner cela. Je me souviens que faire fonctionner correctement les expressions régulières avec Unicode et gérer correctement les limites a été une véritable aventure. Cela ressemble certainement à un bug.

@gerhard pourrait également avoir des idées, car je me souviens qu’il a travaillé sur des problèmes similaires par le passé.

Sujet		Réponses	Vues
Hope Watched words adds support for non-English characters Bug	1	89	Février 16, 2026
Test Watched Words is Broken Bug watched-words	2	540	Juin 9, 2023
Accented characters cause false postives in Watched Words Bug watched-words	2	490	Mai 18, 2023
Watched words: in Persian, content is affected without containing the word Support	6	781	Mai 9, 2019
Bypassing watched words with confusable character replacements Support watched-words	2	232	Décembre 17, 2024

Les caractères russes dans la liste des mots surveillés ne sont pas correctement identifiés

Sujets connexes