В экспортированных CSV-файлах некорректные символы

Ellery · 31.Август.2023 05:30:09

При экспорте списка пользователей в формате CSV, если поле name содержит символы, отличные от ASCII-символов и цифр, возникает проблема с некорректным отображением символов:

Я нашел два способа решения этой проблемы:

Создать новый файл XLSX в Excel, импортировать данные с помощью опции «Из текста/CSV» и установить источник файла как Unicode (UTF-8).

image546×141 4.89 KB
Использовать Notepad++ для открытия CSV-файла и изменить кодировку с UTF-8 на UTF-8-BOM.

image1048×375 94.1 KB

Результат:

Несмотря на эффективность этих методов в устранении симптомов, они не решают проблему в корне.

В ходе дальнейшего исследования я нашел потенциальное долгосрочное решение этой проблемы:

// Процесс генерации CSV, где 'body' представляет строки данных, а 'header' — строку заголовка.
const csv = body.reduce((prev, current) => `${prev}\r\n${current}`, header);

// Excel требует наличия метки порядка байтов (BOM) для указания, что файл закодирован в UTF-8.
const BOM = Buffer.from('\uFEFF');

// Объединение заголовка BOM с сгенерированным содержимым CSV.
const bomCsv = Buffer.concat([BOM, Buffer.from(csv)]);

// Преобразование результирующего буфера в строку и возврат её.
return bomCsv.toString();

// После загрузки и открытия возвращаемой строки в Excel китайский контент будет корректно отображаться в таблице.

По сути, Excel требует метаданных для указания кодировки CSV-файлов. Microsoft ввела заголовок BOM (метка порядка байтов) для этой цели. Хотя этот заголовок может игнорироваться другим программным обеспечением для работы с таблицами, он имеет критическое значение для Excel. Для обеспечения совместимости между различными программами необходимо включать заголовок BOM при генерации CSV.

Меня интересует, планирует ли ваша команда внедрить это решение в следующей версии? Это могло бы расширить поддержку языков и снизить количество ошибок.

Спасибо за ваше внимание к этому вопросу!

Ссылка:
https://www.zhihu.com/question/21869078/answer/350728339

Тема		Ответов	Просм.
Ignore BOM on CSV when sending bulk invitations Bug	3	1015	09.05.2017
Gibberish when exporting Support	1	642	28.09.2020
Commas in username are not escaped during export Bug	5	1149	19.07.2016
Encoding for downloaded posts in Persian language Support	5	1182	04.03.2017
Bulk Invite error due to unknown UTF-8 character Bug	7	1284	17.10.2016

В экспортированных CSV-файлах некорректные символы

Связанные темы