Assistido a Melhoria de Palavras -- caracteres unicode visualmente semelhantes

Para palavras monitoradas, acho que poderia ser melhorado se caracteres Unicode semelhantes também correspondessem.

Por exemplo:
abcabcabc
𝘢𝘣𝘤𝘢𝘣𝘤𝘢𝘣𝘤
𝒂𝒃𝒄𝒂𝒃𝒄𝒂𝒃𝒄
ab𝘤𝘢𝘣𝒄𝒂𝒃𝒄

Isso essencialmente permite que spammers criem muitas variações das mesmas palavras para contornar o filtro de palavras. Tenho sido alvo constante de spammers astutos e motivados, então eles realmente estão testando os recursos anti-spam do Discourse até o limite absoluto. Essa é uma das técnicas que estão usando.

Talvez isso possa ser útil: GitHub - janlelis/unicode-confusable: Unicode::Confusable.confusable? "ℜսᖯʏ", "Ruby" · GitHub

2 curtidas

Isso não é uma “fonte”, é um conjunto diferente de caracteres Unicode.

2 curtidas

Ah, meu erro, obrigado pela correção. Atualizei o post.

Improvável, já que esse tipo de correspondência de unicode que ‘parece com’ é extremamente custoso em tempo de CPU e também muito delicado de fazer corretamente, pois quem decide o que ‘parece com’ outra coisa? :thinking:

Sugiro que você considere outros métodos para lidar com esses spammers.

Enquanto isso, basta adicionar variações comuns de termos de spam conforme necessário em diferentes caracteres unicode.

3 curtidas