Les caractères russes dans la liste des mots surveillés ne sont pas correctement identifiés

J’ai élargi la liste des mots surveillés pour notre entreprise et j’ai découvert un problème étrange. Nous souhaiterions pouvoir utiliser la liste des mots surveillés pour toutes les langues prises en charge, mais elle signale incorrectement certains mots qui sont pourtant corrects en russe, car elle semble ne pas détecter tous les caractères du mot.

Exemple 1 : Les mots surveillés standards avec des caractères anglais fonctionnent correctement

Exemple 2 : Si j’ajoute un caractère au début, il n’est plus signalé (ce qui est le comportement attendu)

Exemple 3 : Mais pour certains caractères russes, les lettres semblent identiques aux caractères anglais, mais elles semblent avoir un Unicode différent qui empêche leur affichage.

Le mot « абля » est signalé à tort, même s’il ne figure pas dans la liste. Supprimer et retaper le « a » sur un clavier anglais fait que le mot n’est plus signalé (probablement en raison d’un codage différent du caractère). Cela entraîne le signalement incorrect de mots parfaitement corrects, ce qui n’est pas souhaité.

Un autre exemple est le mot « себ », signalé de la même manière, alors que seul « еб » figure dans la liste des mots surveillés.

Si quelqu’un a des suggestions de contournement, je serais ravi de les entendre ! Merci :slight_smile:

1 « J'aime »

Bonjour @CCP_Aurora, nous allons examiner cela. Je me souviens que faire fonctionner correctement les expressions régulières avec Unicode et gérer correctement les limites a été une véritable aventure. Cela ressemble certainement à un bug.

@gerhard pourrait également avoir des idées, car je me souviens qu’il a travaillé sur des problèmes similaires par le passé.

4 « J'aime »