Двунаправленные символы в LTR-языках: пост о исправлении уязвимости

yaron · 22.Ноябрь.2021 07:33:37

Я только что наткнулся на следующий PR:

github.com/discourse/discourse

SECURITY: Strip unrendered unicode bidirectional chars in code blocks (#15032)

main ← issue/security-fix-CVE-2021-42574

merged 12:43AM - 22 Nov 21 UTC

martin-brennan

+130 -0

When rendering the markdown code blocks we replace the offending characters in …the output string with spans highlighting a textual representation of the character, along with a title attribute with information about why the character was highlighted. The list of characters stripped by this fix, which are the bidirectional characters considered relevant, are: U+202A U+202B U+202C U+202D U+202E U+2066 U+2067 U+2068 U+2069 ![image](https://user-images.githubusercontent.com/920448/142784052-56805e94-1592-498e-b787-e954c4d89550.png)

Мне кажется, это может сделать легитимный текст на иврите или арабском нечитаемым.

Одно из решений, с которым я столкнулся, — отключить алгоритмы Unicode и просто отображать какое-либо представление непечатаемых символов (по-моему, это было реализовано в Pootle).
По сути, идея состоит в том, чтобы превратить:
This‎‏ text

В:
This<LRM><RLM> text

Таким образом пользователь сможет решить, является ли это вредоносным, поняв, какие именно символы используются, и, возможно, выбрать включение алгоритмов Unicode для правильного чтения текста.
Спасибо.

martin · 22.Ноябрь.2021 22:30:32

Спасибо, что подняли этот вопрос, мы уже учитывали эту проблему. Исправление, на которое вы сослались в исходном посте, применяется только к двунаправленным символам Unicode в блоках pre и code, будь то написанные вручную как HTML или сгенерированные из ``` размеченных блоков кода, поэтому это не должно быть проблемой для обычного текста на иврите или арабском в составленном сообщении.

sam · 22.Ноябрь.2021 22:42:22

Демо:

#include <stdio.h>

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

#include 

int main() {
    /* Say hello; newline<U+2067> /*/ return 0 ;
    printf("Hello world.\n");
    return 0;
}

Тест: “שלום חבר” — Привет, друг

Без BIDI

Тест: “שלום חבר” — Привет, друг

Markdown:

Тест: "שלום חבר" — Привет, друг

Без BIDI

Тест: "שלום חבר" — Привет, друг

Это не самый лучший пример в мире, но суть вы уловили: это влияет только на исходный код, публикуемый на форуме. Использование BIDI-символов в исходном коде обычно не практикуется.

yaron · 23.Ноябрь.2021 15:21:49

Приведу ещё один пример, где отсутствие RLM ломает предложение.

שלום לכולם ובמיוחד ל־Sam, Martin בחר לעזוב אותנו.

שלום לכולם ובמיוחד ל־Sam,‏ Martin בחר לעזוב אותנו.

Видите разницу?
Единственное изменение — это RLM. Я хотел поздравить Сэма и сообщить, что Мартин уходит (без обид).

sam · 23.Ноябрь.2021 20:16:44

Да, этот пример определённо намного лучше! Как видите, он продолжает работать и не затронут исправлением уязвимости

yaron · 24.Ноябрь.2021 13:27:07

Хм, это не блок кода
Я имел в виду, что внутри блока кода он не будет отображаться как ожидалось (в этом и заключается исправление, я прав?)

sam · 24.Ноябрь.2021 21:39:18

Да, но зачем вообще помещать это в блок кода?

yaron · 24.Ноябрь.2021 21:56:54

Выдержка из gettext, нативные строки на иврите/арабском, такие случаи бывают.

sam · 25.Ноябрь.2021 01:47:22

В данном случае для случая с выбросом существуют обходные пути (скриншоты, загрузка вложений и т. д.), и также совершенно очевидно, что специальный символ находится на своём месте.

Риск, связанный с https://trojansource.codes/, выше, чем риск незначительного нарушения в крайне редких случаях.

yaron · 25.Ноябрь.2021 05:47:07

Однако мое предложение разбивает предложение с помощью некоторых управляющих символов, поэтому замена RLM и LRM на или покажет пользователю, что были дополнительные символы, и теперь текст отображается без них, при этом предупреждая, что это может нарушить опыт использования, и предлагая возможность вручную вернуть их обратно при необходимости. Полное удаление символов без каких-либо индикаторов не оставляет пространства для взвешенных решений.

Кроме того, это также предотвратит использование троянского исходного кода, как вы упомянули, поскольку пользователь сможет видеть вредоносный код вместе с индикаторами.

Я постараюсь сделать несколько скриншотов из Pootle. Я не помню, чтобы в последние пару лет видел там опцию для отображения необработанных строк, хотя она была очень полезна, когда мы начинали исправлять локализацию LibreOffice.

sam · 25.Ноябрь.2021 06:10:45

Не понимаю, мы не удаляем, а заменяем, посмотрите мой пример выше

yaron · 28.Ноябрь.2021 16:04:28

Понимаю, не лучше ли использовать их имена вместо сущностей Unicode?

sam · 28.Ноябрь.2021 21:05:07

Если в реальных условиях будут зафиксированы повторные случаи путаницы, мы, безусловно, сможем провести дополнительную настройку.

Тема		Ответов	Просм.
Wrong -> arrow direction in RTL text contexts Feature rtl	12	498	26.05.2025
Uncode Emoji incorrectly converted to text inside code blocks Bug markdown-it-review	1	1255	08.01.2016
Markdown css styles not shown when RTL is enable Bug	9	2085	16.07.2018
Right to left override messes up the text in reviews Bug review-queue	5	132	30.04.2025
Links are Left-to-Right by default Bug	1	571	19.05.2019

Двунаправленные символы в LTR-языках: пост о исправлении уязвимости

Связанные темы