Caracteres bidirecionais em idiomas LTR recebem correção de segurança

yaron · Novembro 22, 2021, 7:33am

Acabei de me deparar com o seguinte PR:

github.com/discourse/discourse

SECURITY: Strip unrendered unicode bidirectional chars in code blocks

main ← issue/security-fix-CVE-2021-42574

opened 11:49PM - 21 Nov 21 UTC

martin-brennan

+130 -0

When rendering the markdown code blocks we replace the offending characters in …the output string with spans highlighting a textual representation of the character, along with a title attribute with information about why the character was highlighted. The list of characters stripped by this fix, which are the bidirectional characters considered relevant, are: U+202A U+202B U+202C U+202D U+202E U+2066 U+2067 U+2068 U+2069 ![image](https://user-images.githubusercontent.com/920448/142784052-56805e94-1592-498e-b787-e954c4d89550.png)

Acho que pode tornar texto legítimo em hebraico ou árabe ilegível.

Uma das soluções que encontrei foi desativar os algoritmos Unicode e apenas exibir alguma representação de caracteres não imprimíveis (acho que foi implementado no Pootle).
Então, basicamente, a ideia é transformar:
Este‎‏ texto

Em:
Este\\u003cLRM\\u003e\\u003cRLM\u003e texto

Dessa forma, o usuário pode escolher se isso é malicioso ou não, entendendo quais são os caracteres reais e possivelmente escolhendo ativar os algoritmos Unicode para poder ler o texto corretamente.
Obrigado.

martin · Novembro 22, 2021, 10:30pm

Obrigado por levantar esta questão, pensamos nessa preocupação. A correção que você vinculou na OP aplica-se apenas a caracteres bidirecionais Unicode em blocos pre e code, escritos manualmente como HTML ou gerados a partir de blocos de código cercados por markdown \u003ccode\u003e```\u003c/code\u003e, portanto, não deve ser um problema com texto hebraico ou árabe regular em uma postagem composta.

sam · Novembro 22, 2021, 10:42pm

Demo:

#include <cstdio.h>

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

#include 

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

Test: “שלום חבר” - Hello Friend

Without BIDI

Test: “שלום חבר” - Hello Friend

Markdown:

Test: "שלום חבר" - Hello Friend

Without BIDI

Test: "שלום חבר" - Hello Friend

Não é o melhor exemplo do mundo, mas você deve entender a ideia aqui, isso só afeta o código-fonte postado no fórum. Caracteres Bidi em código-fonte não é algo que geralmente é feito.

yaron · Novembro 23, 2021, 3:21pm

Vou dar outro exemplo onde nenhum RLM quebra a frase.

שלום לכולם ובמיוחד ל־Sam, Martin בחר לעזוב אותנו.

שלום לכולם ובמיוחד ל־Sam,‏ Martin בחר לעזוב אותנו.

Você vê a diferença?
A única mudança é o RLM, eu queria parabenizar Sam e informar que Martin está saindo (sem ofensa).

sam · Novembro 23, 2021, 8:16pm

Sim, esse exemplo é certamente muito melhor! Como você pode ver, ele continua funcionando e não é impactado pela correção de segurança

yaron · Novembro 24, 2021, 1:27pm

Hmmm, não é um bloco de código
Quero dizer que dentro de um bloco de código não aparecerá como esperado (É sobre isso que se trata a correção, certo?)

sam · Novembro 24, 2021, 9:39pm

Sim, mas por que você incluiria isso em um bloco de código?

yaron · Novembro 24, 2021, 9:56pm

Trecho do gettext, strings nativas hebraicas/árabes, existem tais casos.

sam · Novembro 25, 2021, 1:47am

Eu gostaria que o caso atípico aqui tivesse soluções alternativas (captura de tela, uploads de anexos e assim por diante), também é bem claro que o caractere especial está no lugar.

O risco de https://trojansource.codes/ é maior do que o risco de interrupção leve em casos atípicos extremos.

yaron · Novembro 25, 2021, 5:47am

Mas minha sugestão quebra a frase com alguma indicação, então substituir o RLM e LRM por \\u003cRLM\u003e ou \\u003cLRM\u003e mostrará ao usuário que havia caracteres adicionais e agora o texto está sendo renderizado sem eles, ainda informando que isso pode quebrar a experiência e que há uma opção para substituí-los manualmente, se necessário, remover os caracteres completamente sem alguns indicadores não dá margem para decisões informadas.

E isso também evitará código malicioso como você mencionou, porque o usuário poderá ver o código malicioso com os indicadores.

Tentarei obter algumas capturas de tela do Pootle, não me lembro de ter visto essa opção de strings brutas nos últimos anos, foi muito útil quando começamos a corrigir a localização do LibreOffice.

sam · Novembro 25, 2021, 6:10am

Não entendi, nós não removemos, nós substituímos, veja meu exemplo acima

yaron · Novembro 28, 2021, 4:04pm

Entendo, não seria melhor usar os nomes deles em vez de entidades Unicode?

sam · Novembro 28, 2021, 9:05pm

Se houver confusão repetida relatada em uso real, podemos certamente refinar.

Tópico		Respostas	Visualizações
Wrong -> arrow direction in RTL text contexts Feature rtl	12	511	26 de Maio de 2025
Uncode Emoji incorrectly converted to text inside code blocks Bug markdown-it-review	1	1259	8 de Janeiro de 2016
Markdown css styles not shown when RTL is enable Bug	9	2091	16 de Julho de 2018
Right to left override messes up the text in reviews Bug review-queue	5	137	30 de Abril de 2025
Links are Left-to-Right by default Bug	1	575	19 de Maio de 2019

Caracteres bidirecionais em idiomas LTR recebem correção de segurança

Tópicos relacionados