Bidirektionale Zeichen in LTR-Sprachen nach Sicherheitsfix

yaron · 22. November 2021 um 07:33

Ich bin gerade auf die folgende PR gestoßen:

github.com/discourse/discourse

SECURITY: Strip unrendered unicode bidirectional chars in code blocks

main ← issue/security-fix-CVE-2021-42574

opened 11:49PM - 21 Nov 21 UTC

martin-brennan

+130 -0

When rendering the markdown code blocks we replace the offending characters in …the output string with spans highlighting a textual representation of the character, along with a title attribute with information about why the character was highlighted. The list of characters stripped by this fix, which are the bidirectional characters considered relevant, are: U+202A U+202B U+202C U+202D U+202E U+2066 U+2067 U+2068 U+2069 ![image](https://user-images.githubusercontent.com/920448/142784052-56805e94-1592-498e-b787-e954c4d89550.png)

Ich glaube, sie könnte legitimen hebräischen oder arabischen Text unlesbar machen.

Eine der Lösungen, auf die ich gestoßen bin, war, die Unicode-Algorithmen zu deaktivieren und nur eine Darstellung von nicht druckbaren Zeichen anzuzeigen (ich glaube, das wurde in Pootle implementiert).
Die Idee ist also im Grunde, Folgendes zu tun:
Dieser‎‏ Text

In:
Dieser\\u003cLRM\\u003e\\u003cRLM\u003e Text

Auf diese Weise kann der Benutzer entscheiden, ob dies bösartig ist oder nicht, indem er versteht, welche Zeichen tatsächlich vorhanden sind, und möglicherweise die Unicode-Algorithmen aktivieren kann, um den Text richtig lesen zu können.
Danke.

martin · 22. November 2021 um 22:30

Vielen Dank, dass Sie dies angesprochen haben. Wir haben uns Gedanken über dieses Problem gemacht. Die von Ihnen in der OP verlinkte Korrektur gilt nur für bidirektionale Unicode-Zeichen in pre- und code-Blöcken, die entweder manuell als HTML geschrieben oder aus code````/code Markdown-Fenced-Codeblöcken generiert wurden. Daher sollte dies kein Problem mit normalem hebräischen oder arabischen Text in einem verfassten Beitrag darstellen.

sam · 22. November 2021 um 22:42

Demo:

#include <cstdio.h>

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

#include 

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

Test: “שלום חבר” - Hello Friend

Without BIDI

Test: “שלום חבר” - Hello Friend

Markdown:

Test: "שלום חבר" - Hello Friend

Without BIDI

Test: "שלום חבר" - Hello Friend

Kein das beste Beispiel der Welt, aber du solltest das Wesentliche hier verstehen, es wirkt sich nur auf Quellcode aus, der im Forum gepostet wird. Bidi-Zeichen im Quellcode sind nichts, was normalerweise gemacht wird.

yaron · 23. November 2021 um 15:21

Ich gebe ein weiteres Beispiel, bei dem kein RLM den Satz unterbricht.

שלום לכולם ובמיוחד ל־Sam, Martin בחר לעזוב אותנו.

שלום לכולם ובמיוחד ל־Sam,‏ Martin בחר לעזוב אותנו.

Sehen Sie den Unterschied?
Die einzige Änderung dort ist RLM. Ich wollte Sam gratulieren und ihn darüber informieren, dass Martin geht (Nichts für ungut).

sam · 23. November 2021 um 20:16

Ja, dieses Beispiel ist sicherlich viel besser! Wie Sie sehen können, funktioniert es weiterhin und ist von der Sicherheitskorrektur nicht betroffen

yaron · 24. November 2021 um 13:27

Hmmm, das ist kein Codeblock
Ich meinte, dass es in einem Codeblock nicht wie erwartet angezeigt wird (darum geht es bei der Korrektur, oder?).

sam · 24. November 2021 um 21:39

Ja, aber warum sollte man es in einen Codeblock einfügen?

yaron · 24. November 2021 um 21:56

Auszug aus gettext, hebräische/arabische native Zeichenfolgen, es gibt solche Fälle.

sam · 25. November 2021 um 01:47

Ich würde den Ausnahmefall hier mit Workarounds (Screenshot, Hochladen von Anhängen usw.) versehen, außerdem ist es ziemlich klar, dass das Sonderzeichen vorhanden ist.

Das Risiko von https://trojansource.codes/ ist höher als das Risiko von leichten Störungen in extremen Ausnahmefällen.

yaron · 25. November 2021 um 05:47

Aber mein Vorschlag bricht den Satz mit einem Hinweis, daher wird das Ersetzen von RLM und LRM durch \\u003cRLM\u003e oder \\u003cLRM\u003e dem Benutzer zeigen, dass zusätzliche Zeichen vorhanden waren und der Text nun ohne sie gerendert wird, während er darüber informiert wird, dass dies die Erfahrung beeinträchtigen könnte und dass es eine Option gibt, sie bei Bedarf manuell zurückzusetzen. Das vollständige Entfernen der Zeichen ohne Indikatoren lässt keinen Raum für fundierte Entscheidungen.

Und es wird auch Trojaner-Quellcode verhindern, wie Sie erwähnt haben, da der Benutzer den bösartigen Code mit den Indikatoren sehen kann.

Ich werde versuchen, einige Screenshots von Pootle zu bekommen. Ich erinnere mich nicht, diese Option für Rohzeichenfolgen in den letzten Jahren gesehen zu haben. Sie war sehr nützlich, als wir mit der Korrektur der LibreOffice-Lokalisierung begannen.

sam · 25. November 2021 um 06:10

Ich verstehe nicht, wir entfernen nicht, wir ersetzen, siehe mein Beispiel oben

yaron · 28. November 2021 um 16:04

Ich verstehe, wäre es nicht besser, ihre Namen anstelle von Unicode-Entitäten zu verwenden?

sam · 28. November 2021 um 21:05

Wenn es in der Praxis wiederholt zu Verwirrung kommt, können wir diese sicherlich verfeinern.

Thema		Antworten	Aufrufe
Wrong -> arrow direction in RTL text contexts Feature rtl	12	511	26. Mai 2025
Uncode Emoji incorrectly converted to text inside code blocks Bug markdown-it-review	1	1259	8. Januar 2016
Markdown css styles not shown when RTL is enable Bug	9	2091	16. Juli 2018
Right to left override messes up the text in reviews Bug review-queue	5	137	30. April 2025
Links are Left-to-Right by default Bug	1	575	19. Mai 2019

Bidirektionale Zeichen in LTR-Sprachen nach Sicherheitsfix

Verwandte Themen