Caratteri bidirezionali nelle lingue LTR postano fix di sicurezza

yaron · 22 Novembre 2021, 7:33am

Mi sono appena imbattuto nel seguente PR:

github.com/discourse/discourse

SECURITY: Strip unrendered unicode bidirectional chars in code blocks

main ← issue/security-fix-CVE-2021-42574

opened 11:49PM - 21 Nov 21 UTC

martin-brennan

+130 -0

When rendering the markdown code blocks we replace the offending characters in …the output string with spans highlighting a textual representation of the character, along with a title attribute with information about why the character was highlighted. The list of characters stripped by this fix, which are the bidirectional characters considered relevant, are: U+202A U+202B U+202C U+202D U+202E U+2066 U+2067 U+2068 U+2069 ![image](https://user-images.githubusercontent.com/920448/142784052-56805e94-1592-498e-b787-e954c4d89550.png)

Penso che possa rendere il testo ebraico o arabo legittimo illeggibile.

Una delle soluzioni che ho trovato è stata disabilitare gli algoritmi Unicode e visualizzare semplicemente una rappresentazione dei caratteri non stampabili (penso che fosse implementato in Pootle).
Quindi, fondamentalmente, l’idea è di trasformare:
Questo‎‏ testo

In:
Questo\\u003cLRM\u003e\\u003cRLM\u003e testo

In questo modo l’utente può scegliere se questo è dannoso o meno comprendendo quali sono i caratteri effettivi e possibilmente scegliere di abilitare gli algoritmi Unicode per poter leggere correttamente il testo.
Grazie.

martin · 22 Novembre 2021, 10:30pm

Grazie per aver sollevato questo problema, avevamo pensato a questa preoccupazione. La correzione che hai collegato nell’OP si applica solo ai caratteri bidirezionali Unicode nei blocchi pre e code, scritti manualmente come HTML o generati da blocchi di codice delimitati da markdown \u003ccode\u003e```\u003c/code\u003e, quindi non dovrebbe essere un problema con il testo ebraico o arabo normale in un post composto.

sam · 22 Novembre 2021, 10:42pm

Demo:

#include <cstdio.h>

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

#include 

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

Test: “שלום חבר” - Hello Friend

Senza BIDI

Test: “שלום חבר” - Hello Friend

Markdown:

Test: "שלום חבר" - Hello Friend

Senza BIDI

Test: "שלום חבר" - Hello Friend

Non è il miglior esempio del mondo, ma dovresti capire il concetto qui, influisce solo sul codice sorgente pubblicato sul forum. I caratteri Bidi nel codice sorgente non sono qualcosa che di solito viene fatto.

yaron · 23 Novembre 2021, 3:21pm

Ti darò un altro esempio in cui nessun RLM interrompe la frase.

שלום לכולם ובמיוחד ל־Sam, Martin בחר לעזוב אותנו.

שלום לכולם ובמיוחד ל־Sam,‏ Martin בחר לעזוב אותנו.

Vedi la differenza? L’unica modifica è RLM, volevo congratularmi con Sam e informare che Martin se ne va (senza offesa).

sam · 23 Novembre 2021, 8:16pm

Sì, quell’esempio è decisamente molto meglio! Come puoi vedere continua a funzionare e non è influenzato dalla correzione di sicurezza

yaron · 24 Novembre 2021, 1:27pm

Hmmm, non è un blocco di codice
Intendevo dire che all’interno di un blocco di codice non apparirà come previsto (è proprio di questo che si tratta la correzione, giusto?)

sam · 24 Novembre 2021, 9:39pm

Sì, ma perché dovresti includerlo in un blocco di codice?

yaron · 24 Novembre 2021, 9:56pm

Estratto da gettext, stringhe native ebraiche/arabe, ci sono tali casi.

sam · 25 Novembre 2021, 1:47am

Il caso anomalo qui avrebbe delle soluzioni alternative (screenshot, caricamenti di allegati e così via), inoltre è abbastanza chiaro che il carattere speciale è presente.

Il rischio di https://trojansource.codes/ è superiore al rischio di lievi interruzioni in casi estremi anomali.

yaron · 25 Novembre 2021, 5:47am

Ma il mio suggerimento interrompe la frase con alcuni indizi, quindi sostituire RLM e LRM con <RLM> o <LRM> mostrerà all’utente che c’erano caratteri aggiuntivi e ora il testo viene visualizzato senza di essi, informando comunque che potrebbe interrompere l’esperienza e che esiste un’opzione per ripristinarli manualmente, se necessario, rimuovere completamente i caratteri senza alcuni indicatori non lascia spazio a decisioni informate.

E impedirà anche il codice sorgente trojan come hai menzionato perché l’utente sarà in grado di vedere il codice dannoso con gli indicatori.

Cercherò di ottenere alcuni screenshot da Pootle, non ricordo di aver visto quell’opzione di stringhe raw negli ultimi due anni, è stata molto utile quando abbiamo iniziato a correggere la localizzazione di LibreOffice.

sam · 25 Novembre 2021, 6:10am

Non seguo, non rimuoviamo ma sostituiamo, vedi il mio esempio sopra

yaron · 28 Novembre 2021, 4:04pm

Capisco, non sarebbe meglio usare i loro nomi invece delle entità Unicode?

sam · 28 Novembre 2021, 9:05pm

Se c’è confusione ripetuta segnalata nell’uso reale, possiamo certamente affinare

Argomento		Risposte	Visualizzazioni
Wrong -> arrow direction in RTL text contexts Feature rtl	12	511	Maggio 26, 2025
Uncode Emoji incorrectly converted to text inside code blocks Bug markdown-it-review	1	1259	Gennaio 8, 2016
Markdown css styles not shown when RTL is enable Bug	9	2091	Luglio 16, 2018
Right to left override messes up the text in reviews Bug review-queue	5	137	Aprile 30, 2025
Links are Left-to-Right by default Bug	1	575	Maggio 19, 2019

Caratteri bidirezionali nelle lingue LTR postano fix di sicurezza

Argomenti correlati