Assistiu a truques de palavras

RGJ · Junho 5, 2020, 8:34am

Ao converter uma grande lista de palavras monitoradas para expressões regulares, descobri algumas formas de contornar os filtros. Essas táticas parecem funcionar tanto para palavras monitoradas “normais” quanto para expressões regulares.

Dois espaços: se sua palavra monitorada for palavra proibida, isso pode ser contornado ao inserir múltiplos espaços entre as duas palavras. Um fato interessante é que, na postagem final, o espaço duplo é removido, tornando-o totalmente invisível no texto final.

Para evitar isso usando expressões regulares: use palavra\s*proibida
Para evitar isso sem expressões regulares: não encontrei uma solução.

Use sublinhados para contornar os limites de palavras:
sem regex: se você envolver uma palavra monitorada por sublinhados, ela será exibida em itálico e será permitida. Assim, _proibido_ será aceito se seu filtro for proibido.
com regex: normalmente, os limites de palavras são verificados apenas se você usar \b, e nesse caso o sublinhado os supera. Assim, _proibido_ será aceito se seu filtro for \bproibido\b.

Para evitar isso usando expressões regulares: use [\b\_] em vez de \b
EDIT: isso não parece funcionar bem.
Remover os limites de palavras também pode funcionar, mas você corre o risco de bloquear acidentalmente palavras como cumulativo e título
Para evitar isso sem expressões regulares: não encontrei uma solução.

codinghorror · Junho 5, 2020, 9:39pm

Certo, geralmente esse não é o tipo de coisa em que gastamos tempo lutando, porque existem muitos truques “espertos” para contornar qualquer tipo de lista de bloqueio de palavras. O Unicode é um espaço muito, muito grande.

Stephen · Junho 5, 2020, 9:57pm

De fato, tentamos fazer isso em vários grandes projetos de educação, algum tempo atrás.

Antes de ser abandonado, eles lançaram com correspondência aproximada, o que, previsivelmente, causou todo tipo de problema para casos de uso legítimos.

riking · Junho 5, 2020, 11:22pm

Palavras monitoradas são principalmente uma “primeira linha de defesa” contra palavras ofensivas. Você ainda precisa da comunidade para sinalizar as tentativas de contorno e as violações.

Nenhuma expressão regular que você jamais crie será capaz de detectar uma .

elijah · Junho 6, 2020, 6:52am

Apenas para avisar, [] é para “classes de caracteres”. Em expressões regulares do Perl e possivelmente do Ruby, \b é uma “fronteira de palavra” fora de uma classe de caracteres e “retrocesso” dentro de uma classe de caracteres. Em C, ‘\b’ é sempre retrocesso (<control-H> para ser preciso). Retrocesso não é um caractere útil na maioria das vezes, enquanto fronteiras de palavra são, daí a redefinição.

Para usar uma ER para capturar “proibido” ou “proibido”, eu provavelmente usaria:

\b_?proibido_?\b

(Também sei como codificar todas as minhas letras em &#xXX; para evitar truques de Unicode ou a expressão regular.)

RGJ · Junho 6, 2020, 7:27am

Nunca tinha percebido que havia uma diferença dependendo do contexto. Obrigado pela explicação!

Tópico		Respostas	Visualizações
Watched Words - Is there a way to block the use of asterisks with certain words instead of it being used as a wildcard? Support watched-words	12	242	16 de Agosto de 2024
* wildcards in Watched Words (Censor) don't work Feature	19	3264	11 de Janeiro de 2018
Using Regex with Watched Words Site Management reference , regex , watched-words , content	1	1964	14 de Junho de 2024
Watched words regex: word boundary not working as expected Bug	4	1467	24 de Janeiro de 2018
Hope Watched words adds support for non-English characters Bug	1	89	16 de Fevereiro de 2026

Assistiu a truques de palavras

Tópicos relacionados