Caracteres bidireccionales en idiomas LTR publican corrección de seguridad

yaron · 22 Noviembre, 2021 07:33

Me acabo de encontrar con la siguiente PR:

github.com/discourse/discourse

SECURITY: Strip unrendered unicode bidirectional chars in code blocks

main ← issue/security-fix-CVE-2021-42574

opened 11:49PM - 21 Nov 21 UTC

martin-brennan

+130 -0

When rendering the markdown code blocks we replace the offending characters in …the output string with spans highlighting a textual representation of the character, along with a title attribute with information about why the character was highlighted. The list of characters stripped by this fix, which are the bidirectional characters considered relevant, are: U+202A U+202B U+202C U+202D U+202E U+2066 U+2067 U+2068 U+2069 ![image](https://user-images.githubusercontent.com/920448/142784052-56805e94-1592-498e-b787-e954c4d89550.png)

Creo que puede hacer que texto legítimo en hebreo o árabe sea ilegible.

Una de las soluciones que encontré fue deshabilitar los algoritmos de Unicode y simplemente mostrar una representación de caracteres no imprimibles (creo que se implementó en Pootle).
Así que, básicamente, la idea es convertir:
Este‎‏ texto

En:
Este\\u003cLRM\u003e\\u003cRLM\u003e texto

De esta manera, el usuario puede elegir si esto es malicioso o no, entendiendo cuáles son los caracteres reales y posiblemente eligiendo habilitar los algoritmos de Unicode para poder leer el texto correctamente.
Gracias.

martin · 22 Noviembre, 2021 22:30

Gracias por plantear esto, tuvimos en cuenta esta preocupación. La corrección que enlazaste en el OP solo se aplica a los caracteres bidireccionales unicode en bloques pre y code, ya sea escritos manualmente como HTML o generados a partir de bloques de código delimitados por \u003ccode\u003e```\u003c/code\u003e, por lo que no debería ser un problema con texto hebreo o árabe normal en una publicación compuesta.

sam · 22 Noviembre, 2021 22:42

Demo:

#include <cstdio.h>

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

#include 

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

Test: “שלום חבר” - Hello Friend

Without BIDI

Test: “שלום חבר” - Hello Friend

Markdown:

Test: "שלום חבר" - Hello Friend

Without BIDI

Test: "שלום חבר" - Hello Friend

No es el mejor ejemplo del mundo, pero deberías entender la idea aquí, solo afecta al código fuente que se publica en el foro. Los caracteres Bidi en el código fuente no son algo que se suela hacer.

yaron · 23 Noviembre, 2021 15:21

Te daré otro ejemplo en el que RLM no rompe la oración.

שלום לכולם ובמיוחד ל־Sam, Martin בחר לעזוב אותנו.

שלום לכולם ובמיוחד ל־Sam,‏ Martin בחר לעזוב אותנו.

¿Ves la diferencia?
El único cambio es RLM, quería felicitar a Sam e informar que Martin se va (sin ofender).

sam · 23 Noviembre, 2021 20:16

¡Sí, ese ejemplo es ciertamente mucho mejor! Como puedes ver, sigue funcionando y no se ve afectado por la corrección de seguridad

yaron · 24 Noviembre, 2021 13:27

Hmmm, no es un bloque de código
Quiero decir que dentro de un bloque de código no aparecerá como se espera (¿De eso se trata la corrección, verdad?)

sam · 24 Noviembre, 2021 21:39

Sí, pero ¿por qué lo incluirías en un bloque de código?

yaron · 24 Noviembre, 2021 21:56

Extracto de gettext, cadenas nativas hebreo/árabe, hay tales casos.

sam · 25 Noviembre, 2021 01:47

Me gustaría que el caso atípico aquí tuviera soluciones alternativas (captura de pantalla, cargas de archivos adjuntos, etc.), además de que está bastante claro que el carácter especial está en su lugar.

El riesgo de https://trojansource.codes/ es mayor que el riesgo de una leve interrupción en casos atípicos extremos.

yaron · 25 Noviembre, 2021 05:47

Pero mi sugerencia rompe la oración con alguna señal, por lo que reemplazar RLM y LRM con \\u003cRLM\u003e o \\u003cLRM\u003e mostrará al usuario que había caracteres adicionales y ahora el texto se muestra sin ellos, informando que podría afectar la experiencia y que existe la opción de reemplazarlos manualmente si es necesario, eliminar los caracteres por completo sin ningún indicador no deja lugar a decisiones informadas.

Y también evitará el código fuente troyano como mencionaste porque el usuario podrá ver el código malicioso con los indicadores.

Intentaré obtener algunas capturas de pantalla de Pootle, no recuerdo haber visto esa opción de cadenas de texto sin procesar en los últimos años, fue muy útil cuando comenzamos a corregir la localización de LibreOffice.

sam · 25 Noviembre, 2021 06:10

No sigo, reemplazamos, no quitamos, mira mi ejemplo anterior

yaron · 28 Noviembre, 2021 16:04

Entiendo, ¿no sería mejor usar sus nombres en lugar de la entidad Unicode?

sam · 28 Noviembre, 2021 21:05

Si se informa de confusión repetida en la práctica, ciertamente podemos ajustar.

Tema		Respuestas	Vistas
Wrong -> arrow direction in RTL text contexts Feature rtl	12	511	26 Mayo 2025
Uncode Emoji incorrectly converted to text inside code blocks Bug markdown-it-review	1	1259	8 Enero 2016
Markdown css styles not shown when RTL is enable Bug	9	2091	16 Julio 2018
Right to left override messes up the text in reviews Bug review-queue	5	137	30 Abril 2025
Links are Left-to-Right by default Bug	1	575	19 Mayo 2019

Caracteres bidireccionales en idiomas LTR publican corrección de seguridad

Temas relacionados