Osservato miglioramento delle parole -- caratteri Unicode dall'aspetto simile

Per le parole monitorate, penso che si potrebbe migliorare il sistema facendo corrispondere anche i caratteri Unicode simili.

Ad esempio:
abcabcabc
𝘒𝘣𝘀𝘒𝘣𝘀𝘒𝘣𝘀
𝒂𝒃𝒄𝒂𝒃𝒄𝒂𝒃𝒄
abπ˜€π˜’π˜£π’„π’‚π’ƒπ’„

Questo permetterebbe essenzialmente agli spammer di creare molte varianti delle stesse parole per aggirare il filtro delle parole. Sono stato bombardato da spammer astuti e motivati, che hanno messo alla prova le funzionalitΓ  anti-spam di Discourse fino al limite assoluto. Questa Γ¨ una delle tecniche che stanno utilizzando.

Forse potrebbe essere utile: GitHub - janlelis/unicode-confusable: Unicode::Confusable.confusable? "β„œΥ½α–―Κ", "Ruby" Β· GitHub

2 Mi Piace

Quello non Γ¨ un β€œfont”, Γ¨ un diverso insieme di caratteri Unicode.

2 Mi Piace

Ah, scusa, grazie per la correzione. Ho aggiornato il post.

Improbabile, poichΓ© quel tipo di corrispondenza unicode che β€œsembra simile” Γ¨ estremamente costoso in termini di tempo di CPU ed Γ¨ anche molto delicato da implementare correttamente, perchΓ© chi decide cosa β€œsembra simile” a qualcos’altro? :thinking:

Ti suggerisco di considerare altri metodi per gestire questi spammer.

Nel frattempo, aggiungi semplicemente le varianti comuni dei termini di spam necessarie in diversi caratteri unicode.

3 Mi Piace