I caratteri russi nell'elenco delle parole monitorate non vengono identificati correttamente

Sto ampliando l’elenco delle parole monitorate per la nostra azienda e ho riscontrato un problema strano. Vorremmo poter utilizzare l’elenco delle parole monitorate per tutte le lingue supportate, ma sta segnalando in modo errato alcune parole che sono corrette in russo, probabilmente perché non rileva tutti i caratteri della parola.

Esempio 1: Le parole monitorate normali con caratteri inglesi funzionano correttamente

Esempio 2: Se aggiungo un carattere all’inizio di questa, non viene più segnalata (il che funziona come previsto)

Esempio 3: Ma per alcuni caratteri russi, le lettere sembrano identiche a quelle inglesi, ma sembrano avere un codice Unicode diverso che le fa non apparire.

абля viene segnalata in modo errato anche se non è nell’elenco. Eliminando e riscrivendo la “a” con una tastiera inglese, la parola non viene più segnalata (probabilmente a causa di una codifica diversa del carattere). Questo sta causando la segnalazione errata di parole perfettamente corrette, cosa che non desideriamo.

Un altro esempio è себ, segnalata in modo errato nello stesso modo, anche se nell’elenco delle parole monitorate c’è solo еб.

Se qualcuno ha suggerimenti su possibili soluzioni alternative, sarei felice di ascoltarli! Grazie :slight_smile:

1 Mi Piace

Ciao @CCP_Aurora, ci daremo un’occhiata. Ricordo che far funzionare correttamente le espressioni regolari con Unicode e gestire correttamente i confini è stata un’avventura. Questo sembra decisamente un bug.

Anche @gerhard potrebbe avere delle idee, ricordo che ha lavorato su problemi simili in passato.

4 Mi Piace