I caratteri russi nell'elenco delle parole monitorate non vengono identificati correttamente

CCP_Aurora · 9 Febbraio 2021, 12:48pm

Sto ampliando l’elenco delle parole monitorate per la nostra azienda e ho riscontrato un problema strano. Vorremmo poter utilizzare l’elenco delle parole monitorate per tutte le lingue supportate, ma sta segnalando in modo errato alcune parole che sono corrette in russo, probabilmente perché non rileva tutti i caratteri della parola.

Esempio 1: Le parole monitorate normali con caratteri inglesi funzionano correttamente

Esempio 2: Se aggiungo un carattere all’inizio di questa, non viene più segnalata (il che funziona come previsto)

Esempio 3: Ma per alcuni caratteri russi, le lettere sembrano identiche a quelle inglesi, ma sembrano avere un codice Unicode diverso che le fa non apparire.

абля viene segnalata in modo errato anche se non è nell’elenco. Eliminando e riscrivendo la “a” con una tastiera inglese, la parola non viene più segnalata (probabilmente a causa di una codifica diversa del carattere). Questo sta causando la segnalazione errata di parole perfettamente corrette, cosa che non desideriamo.

Un altro esempio è себ, segnalata in modo errato nello stesso modo, anche se nell’elenco delle parole monitorate c’è solo еб.

Se qualcuno ha suggerimenti su possibili soluzioni alternative, sarei felice di ascoltarli! Grazie

sam · 10 Febbraio 2021, 6:24am

Ciao @CCP_Aurora, ci daremo un’occhiata. Ricordo che far funzionare correttamente le espressioni regolari con Unicode e gestire correttamente i confini è stata un’avventura. Questo sembra decisamente un bug.

Anche @gerhard potrebbe avere delle idee, ricordo che ha lavorato su problemi simili in passato.

Argomento		Risposte	Visualizzazioni
Hope Watched words adds support for non-English characters Bug	1	89	Febbraio 16, 2026
Test Watched Words is Broken Bug watched-words	2	540	Giugno 9, 2023
Accented characters cause false postives in Watched Words Bug watched-words	2	490	Maggio 18, 2023
Watched words: in Persian, content is affected without containing the word Support	6	781	Maggio 9, 2019
Bypassing watched words with confusable character replacements Support watched-words	2	232	Dicembre 17, 2024

I caratteri russi nell'elenco delle parole monitorate non vengono identificati correttamente

Argomenti correlati