Ich glaube, sie könnte legitimen hebräischen oder arabischen Text unlesbar machen.
Eine der Lösungen, auf die ich gestoßen bin, war, die Unicode-Algorithmen zu deaktivieren und nur eine Darstellung von nicht druckbaren Zeichen anzuzeigen (ich glaube, das wurde in Pootle implementiert).
Die Idee ist also im Grunde, Folgendes zu tun:
Dieser Text
In:
Dieser\\u003cLRM\\u003e\\u003cRLM\u003e Text
Auf diese Weise kann der Benutzer entscheiden, ob dies bösartig ist oder nicht, indem er versteht, welche Zeichen tatsächlich vorhanden sind, und möglicherweise die Unicode-Algorithmen aktivieren kann, um den Text richtig lesen zu können.
Danke.
Vielen Dank, dass Sie dies angesprochen haben. Wir haben uns Gedanken über dieses Problem gemacht. Die von Ihnen in der OP verlinkte Korrektur gilt nur für bidirektionale Unicode-Zeichen in pre- und code-Blöcken, die entweder manuell als HTML geschrieben oder aus code````/code Markdown-Fenced-Codeblöcken generiert wurden. Daher sollte dies kein Problem mit normalem hebräischen oder arabischen Text in einem verfassten Beitrag darstellen.
Kein das beste Beispiel der Welt, aber du solltest das Wesentliche hier verstehen, es wirkt sich nur auf Quellcode aus, der im Forum gepostet wird. Bidi-Zeichen im Quellcode sind nichts, was normalerweise gemacht wird.
Ich gebe ein weiteres Beispiel, bei dem kein RLM den Satz unterbricht.
שלום לכולם ובמיוחד ל־Sam, Martin בחר לעזוב אותנו.
שלום לכולם ובמיוחד ל־Sam, Martin בחר לעזוב אותנו.
Sehen Sie den Unterschied?
Die einzige Änderung dort ist RLM. Ich wollte Sam gratulieren und ihn darüber informieren, dass Martin geht (Nichts für ungut).
Ich würde den Ausnahmefall hier mit Workarounds (Screenshot, Hochladen von Anhängen usw.) versehen, außerdem ist es ziemlich klar, dass das Sonderzeichen vorhanden ist.
Das Risiko von https://trojansource.codes/ ist höher als das Risiko von leichten Störungen in extremen Ausnahmefällen.
Aber mein Vorschlag bricht den Satz mit einem Hinweis, daher wird das Ersetzen von RLM und LRM durch \\u003cRLM\u003e oder \\u003cLRM\u003e dem Benutzer zeigen, dass zusätzliche Zeichen vorhanden waren und der Text nun ohne sie gerendert wird, während er darüber informiert wird, dass dies die Erfahrung beeinträchtigen könnte und dass es eine Option gibt, sie bei Bedarf manuell zurückzusetzen. Das vollständige Entfernen der Zeichen ohne Indikatoren lässt keinen Raum für fundierte Entscheidungen.
Und es wird auch Trojaner-Quellcode verhindern, wie Sie erwähnt haben, da der Benutzer den bösartigen Code mit den Indikatoren sehen kann.
Ich werde versuchen, einige Screenshots von Pootle zu bekommen. Ich erinnere mich nicht, diese Option für Rohzeichenfolgen in den letzten Jahren gesehen zu haben. Sie war sehr nützlich, als wir mit der Korrektur der LibreOffice-Lokalisierung begannen.