Сократите потребность в дисковом пространстве, не дублируя сжатие резервных копий в формате gzip

Ed_S · 16.Ноябрь.2022 12:38:03

Процесс резервного копирования создаёт tar-архив, а затем сжимает его с помощью gzip. В tar-архиве содержится два типа данных: уже сжатый дамп SQL и содержимое папки uploads (если это было запрошено). В моём случае каждый файл в uploads уже сжат: gz, gzip, gif, jpeg, png, zip. Поэтому финальное сжатие gzip даёт прирост лишь в 1% по размеру.

Я считаю, что было бы лучше снизить требования к свободному месту.

В одной из тем 2016 года упоминается отключение сжатия резервных копий, но тогда дамп SQL ещё не был сжат, что меняло баланс компромиссов.

Добавить опцию отключения сжатия резервных копий

gerhard · 17.Ноябрь.2022 14:50:45

Я уже работаю над новым форматом резервных копий, который исключает двойное сжатие. Надеюсь, он будет готов в течение месяца-двух.

Ed_S · 17.Ноябрь.2022 15:45:41

Отлично, @gerhard!

tumbano · 20.Апрель.2023 07:52:51

Есть ли какие-то новости по этому вопросу? Спасибо.

Ed_S · 04.Октябрь.2023 09:11:10

Не хочу надоедать, но как продвигается работа?

gerhard · 04.Октябрь.2023 09:22:21

Разработка этой функции в настоящее время приостановлена, и она не входит в наш текущий план работ. Надеюсь, мы сможем заняться этим в 2024 году.

Isambard · 30.Август.2024 18:44:57

Если я напишу патч, который будет принимать значение 0 в параметре уровня сжатия для отключения gzip, примете ли вы его?

Ed_S · 30.Август.2024 19:00:39

Я предполагаю, что таким образом вы сэкономите время процессора, но не место на диске, поскольку сжатый архив tar.gz все равно будет создан.

Isambard · 30.Август.2024 19:08:53

Я стремлюсь сэкономить время процессора. На самом деле я думал использовать 0 как флаг, который изменит путь выполнения кода, чтобы оно не сжимало с помощью gzip (к сожалению, ноль, насколько мне известно, не является допустимым уровнем сжатия, поддерживаемым во всех версиях gzip).

Ed_S · 30.Август.2024 20:02:15

Хм, это мне совсем не поможет! (Точно так же и для других, у кого возникла та же проблема с нехваткой места на диске.)

Если бы использовался tar, его можно было бы применять с опциями z или j. Если бы использовалась подсистема, вывод tar можно было бы передать через конвейер в gzip. Но я думаю, что на самом деле могут использоваться некоторые функции более высокого уровня Ruby.

RGJ · 30.Август.2024 22:06:33

кашель

github.com/discourse/discourse

lib/compression/tar.rb

7b89fdead


      
          Discourse::Utils.execute_command(
            "tar",
            "--create",
            "--file",
            tar_filename,
            target_name,
            failure_message: "Failed to tar file.",
          )

Ed_S · 31.Август.2024 07:27:44

Возможно, это не должно быть слишком сложно… Я понимаю, что внесение изменений в функции резервного копирования и восстановления требует большой осторожности, но я считаю, что просто встроенная компрессия сэкономила бы много места без каких-либо вопросов совместимости.

Из tar --help

-a, --auto-compress использовать суффикс архива для определения компрессии
-z, --gzip, --gunzip, --ungzip фильтровать архив через gzip

Isambard · 01.Сентябрь.2024 22:49:23

Действительно ли флаг -z выполняет сжатие на месте? Я всегда думал, что gzip запускается только после завершения создания архива tar.

Ed_S · 02.Сентябрь.2024 08:34:24

В данном случае — ошибочно! Байты, представляющие несжатый tar-файл, никогда не записываются на диск.

MentalNomad · 06.Май.2025 14:35:07

Вы имеете в виду, что мы можем просто добавить
"--gzip",

И это прекратит требование занимать в два раза больше места, чем фактически используется данными?

Ed_S · 06.Май.2025 15:38:33

Да, это изменение в команде tar.

Ed_S · 23.Апрель.2026 16:58:51

Похоже, что ещё лучший вариант — --zstd, но тогда в образе Docker также должен быть установлен пакет ‘zstd’.

Ed_S · 23.Апрель.2026 20:58:46

Возможно, более подходящий подход, который мог бы упростить задачу, — это возможность работать с существующими резервными копиями, которые могут иметь расширение *.gz или *.zst, используя автоматическое определение tar:

tar --auto-compress -c -f ../file.tar.gz .
tar --auto-compress -c -f ../file.tar.zst .

Более важно, конечно, при распаковке, когда мы можем не знать, с чем именно столкнёмся.

В настоящее время код на Ruby выполняет множество операций, которые может выполнить сам tar. Надеемся, это позволит упростить процесс, а не усложнить его.

Ed_S · 24.Апрель.2026 18:34:02

zstd также работает значительно быстрее, что делает менее критичным тот факт, что мы тратим время на сжатие данных, которые почти не сжимаются.

(Если бы zstd использовался и для дампа SQL, в моём случае он был бы на 10% меньше.)

CT075 · 07.Июль.2026 17:29:26

Привет, есть ли какие-либо новости по этому поводу? Судя по этому ответу, нам известно, что это исправление в одну строку, уже более года, так что очень расстраивает продолжать просыпаться от сообщений backup failed, несмотря на то, что на сервере свободно почти 30 ГБ.

Я бы сделал PR сам, если бы подписание CLA не требовало от меня ввода физического почтового адреса.

Тема		Ответов	Просм.
Add option to disable backup compression Feature	29	6195	30.08.2024
Migrate from gz compression to zstd for backups Feature pr-welcome	4	401	23.04.2026
Backups are duplicating and not respecting number to keep on disk Self-hosting	67	2713	14.02.2019
Using TarWriter to stream backup Development performance , backups	3	1347	25.01.2018
Any way to disable gzipping backups? Support	8	232	13.10.2025

Сократите потребность в дисковом пространстве, не дублируя сжатие резервных копий в формате gzip

Связанные темы