LTR语言中的双向字符发布安全修复

yaron · 2021 年11 月 22 日 07:33

我刚刚遇到了以下 PR：

github.com/discourse/discourse

SECURITY: Strip unrendered unicode bidirectional chars in code blocks

main ← issue/security-fix-CVE-2021-42574

opened 11:49PM - 21 Nov 21 UTC

martin-brennan

+130 -0

When rendering the markdown code blocks we replace the offending characters in …the output string with spans highlighting a textual representation of the character, along with a title attribute with information about why the character was highlighted. The list of characters stripped by this fix, which are the bidirectional characters considered relevant, are: U+202A U+202B U+202C U+202D U+202E U+2066 U+2067 U+2068 U+2069 ![image](https://user-images.githubusercontent.com/920448/142784052-56805e94-1592-498e-b787-e954c4d89550.png)

我认为这可能会使合法的希伯来语或阿拉伯语文本变得无法阅读。

我遇到的解决方案之一是禁用 unicode 算法，只显示非打印字符的某种表示形式（我认为它是在 Pootle 中实现的）。
所以基本上这个想法是将：
This‎‏ text

变成：
This\\u003cLRM\u003e\\u003cRLM\u003e text

这样用户就可以通过了解实际字符是什么来选择这是否是恶意的，并可能选择启用 unicode 算法以能够正确阅读文本。
谢谢。

martin · 2021 年11 月 22 日 22:30

感谢您提出这个问题，我们已经考虑到了这个顾虑。您在 OP 中链接的修复程序仅适用于 pre 和 code 块中的 Unicode 双向字符，无论是手动编写的 HTML 还是由 <code>```</code></code> markdown 围栏代码块生成的，因此它不应影响组合帖子中的常规希伯来语或阿拉伯语文本。

sam · 2021 年11 月 22 日 22:42

演示：

#include <cstdio.h>

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

#include 

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

测试：‫"שלום חבר" - Hello Friend

无双向文本
测试：“שלום חבר” - Hello Friend

Markdown：

测试：&#x202B;"שלום חבר" - Hello Friend

无双向文本

测试："שלום חבר" - Hello Friend

这算不上最好的例子，但你应该能明白我的意思，它只影响发布在论坛上的源代码。源代码中的双向文本字符通常是不使用的。

yaron · 2021 年11 月 23 日 15:21

我将举另一个例子，其中 RLM 不会打断句子。

שלום לכולם ובמיוחד ל־Sam, Martin בחר לעזוב אותנו.

שלום לכולם ובמיוחד ל־Sam,‏ Martin בחר לעזוב אותנו.

你看到区别了吗？
唯一的改变是 RLM，我想祝贺 Sam 并告知 Martin 要离开了（没有冒犯）。

sam · 2021 年11 月 23 日 20:16

是的，那个例子确实好多了！正如你所见，它仍然在工作，并且不受安全修复的影响

yaron · 2021 年11 月 24 日 13:27

嗯，它不是代码块
我的意思是，在代码块中它不会按预期显示（这正是修复的重点，对吧？）

sam · 2021 年11 月 24 日 21:39

是的，但你为什么要把它包含在代码块中？

yaron · 2021 年11 月 24 日 21:56

来自 gettext 的摘录，希伯来语/阿拉伯语原生字符串，存在这种情况。

sam · 2021 年11 月 25 日 01:47

我希望这里的异常情况有变通方法（截图、附件上传等），而且特殊字符已到位。

https://trojansource.codes/ 的风险高于极端异常情况下的轻微干扰风险。

yaron · 2021 年11 月 25 日 05:47

但是我的建议会因为一些提示符而破坏句子，所以用 <RLM> 或 <LRM> 替换 RLM 和 LRM 将向用户显示存在一些额外的字符，而现在文本已在没有这些字符的情况下呈现，同时告知这可能会破坏体验，并且如果需要，可以选择手动替换回来，完全删除字符而没有任何指示，则没有留下做出明智决定的余地。

而且，正如您提到的，它还将防止特洛伊木马源代码，因为用户将能够看到带有指示符的恶意代码。

我将尝试从 Pootle 获取一些截图，我不记得在过去几年里看到过那个原始字符串选项，在我们开始修复 LibreOffice 本地化时，它非常有用。

sam · 2021 年11 月 25 日 06:10

不遵循，我们不剥离，我们替换，请看我上面的例子

yaron · 2021 年11 月 28 日 16:04

我明白了，用他们的名字而不是 Unicode 实体会不会更好？

sam · 2021 年11 月 28 日 21:05

如果在实际使用中反复出现混淆，我们可以进行微调。

话题		回复	浏览量
Wrong -> arrow direction in RTL text contexts Feature rtl	12	511	2025 年5 月 26 日
Uncode Emoji incorrectly converted to text inside code blocks Bug markdown-it-review	1	1259	2016 年1 月 8 日
Markdown css styles not shown when RTL is enable Bug	9	2091	2018 年7 月 16 日
Right to left override messes up the text in reviews Bug review-queue	5	137	2025 年4 月 30 日
Links are Left-to-Right by default Bug	1	575	2019 年5 月 19 日

LTR语言中的双向字符发布安全修复

相关话题