Riduci lo spazio su disco locale evitando di comprimere (in modo ridondante) i backup con gzip

Ed_S · 16 Novembre 2022, 12:38pm

Il processo di backup crea un file tar e poi vi applica gzip. Ci sono due tipi di elementi nel file tar: un dump SQL già compresso con gzip e il contenuto dei caricamenti (se richiesto). Nel mio caso, ogni file di caricamento è già compresso: gz, gzip, gif, jpeg, png, zip. Quindi la compressione finale con gzip aumenta solo dell’1% le dimensioni.

Credo che sarebbe meglio richiedere meno spazio libero.

Un argomento precedente del 2016 menziona la disabilitazione della compressione dei backup, ma sembra che all’epoca il dump SQL non fosse compresso, il che ha modificato i compromessi.

Aggiungi opzione per disabilitare la compressione dei backup

gerhard · 17 Novembre 2022, 2:50pm

Sto già lavorando a un nuovo formato di backup che rimuove la doppia compressione. Spero che sarà pronto entro uno o due mesi.

Ed_S · 17 Novembre 2022, 3:45pm

Ottimo @gerhard!

tumbano · 20 Aprile 2023, 7:52am

Ci sono aggiornamenti in merito? Grazie

Ed_S · 4 Ottobre 2023, 9:11am

Per non disturbarti troppo, ma come sta procedendo?

gerhard · 4 Ottobre 2023, 9:22am

Lo sviluppo di quella funzionalità è attualmente in pausa e non è nella nostra attuale roadmap. Spero che ci arriveremo nel 2024.

Isambard · 30 Agosto 2024, 6:44pm

Se scrivessi una patch per accettare uno 0 nel tasso di compressione per disabilitare gzip, sarebbe qualcosa che accettereste?

Ed_S · 30 Agosto 2024, 7:00pm

(Sto ipotizzando che in questo modo si risparmierebbe tempo della CPU, ma non spazio, perché il file tar compresso verrebbe comunque creato.)

Isambard · 30 Agosto 2024, 7:08pm

Sto cercando di risparmiare tempo di CPU. In realtà, stavo pensando di usare lo 0 come flag che cambierebbe il percorso del codice in modo che non comprima gzip (purtroppo, zero non è un livello di compressione valido supportato da tutte le versioni di gzip, per quanto ne so).

Ed_S · 30 Agosto 2024, 8:02pm

Questo non mi aiuterebbe affatto! (Lo stesso vale per altri che hanno avuto lo stesso problema con spazio su disco limitato.)

Se venisse utilizzato tar, potrebbe essere utilizzato con le opzioni z o j. Se venisse utilizzata una subshell, l’output di tar potrebbe essere inviato tramite pipe a gzip. Ma penso che in realtà vengano utilizzate alcune funzioni ruby di livello superiore.

RGJ · 30 Agosto 2024, 10:06pm

tosse

github.com/discourse/discourse

lib/compression/tar.rb

7b89fdead


      
          Discourse::Utils.execute_command(
            "tar",
            "--create",
            "--file",
            tar_filename,
            target_name,
            failure_message: "Failed to tar file.",
          )

Ed_S · 31 Agosto 2024, 7:27am

Forse non dovrebbe essere troppo difficile… Apprezzo che le modifiche al backup e al ripristino debbano essere apportate con molta cura, ma penso che semplicemente incorporare la compressione risparmierebbe molti requisiti di spazio senza alcuna domanda di compatibilità.

Da tar --help

-a, --auto-compress usa il suffisso dell’archivio per determinare la compressione
-z, --gzip, --gunzip, --ungzip filtra l’archivio tramite gzip

Isambard · 1 Settembre 2024, 10:49pm

La compressione -z avviene effettivamente sul posto? Ho sempre pensato che eseguisse solo gzip dopo il completamento del file tar.

Ed_S · 2 Settembre 2024, 8:34am

Saggiamente, in questo caso! I byte che rappresentano il file tar decompresso non toccano il disco.

MentalNomad · 6 Maggio 2025, 2:35pm

Stai dicendo che possiamo semplicemente aggiungere
"--gzip",

E smetterà di richiedere il doppio dello spazio effettivamente utilizzato dai dati?

Ed_S · 6 Maggio 2025, 3:38pm

Sì, questa è la modifica al comando tar.

Ed_S · 23 Aprile 2026, 4:58pm

Sembra che una scelta ancora migliore sia --zstd, ma in tal caso dovremmo anche avere il pacchetto ‘zstd’ installato nell’immagine Docker.

Ed_S · 23 Aprile 2026, 8:58pm

Possibile approccio migliore che potrebbe semplificare le cose: gestire i backup esistenti che potrebbero essere *.gz o *.zst utilizzando il rilevamento automatico di tar:

tar --auto-compress -c -f ../file.tar.gz .
tar --auto-compress -c -f ../file.tar.zst .

Più importante ovviamente per l’estrazione, dove potremmo non sapere cosa ci troveremo di fronte.

Attualmente il codice Ruby sembra fare molte cose che tar può gestire da solo. Speriamo che questo possa essere semplificato, piuttosto che diventare più complesso.

Ed_S · 24 Aprile 2026, 6:34pm

zstd è anche molto più veloce, il che rende meno problematico il tempo che impieghiamo a comprimere dati quasi non comprimibili.

(Se zstd venisse utilizzato anche per il dump SQL, nel mio caso questo risulterebbe del 10% più piccolo.)

CT075 · 7 Luglio 2026, 5:29pm

Ciao, ci sono novità in merito? Da questa risposta sembra che sappiamo da oltre un anno che si tratta di una correzione di una sola riga, quindi è piuttosto frustrante continuare a svegliarsi con messaggi privati che segnalano backup failed, nonostante ci siano quasi 30 G di spazio libero sul server.

Presenterei io stesso la PR, se la firma del CLA non richiedesse l’inserimento di un indirizzo postale fisico.

Argomento		Risposte	Visualizzazioni
Add option to disable backup compression Feature	29	6196	Agosto 30, 2024
Migrate from gz compression to zstd for backups Feature pr-welcome	4	407	Aprile 23, 2026
Backups are duplicating and not respecting number to keep on disk Self-hosting	67	2723	Febbraio 14, 2019
Using TarWriter to stream backup Development performance , backups	3	1347	Gennaio 25, 2018
Any way to disable gzipping backups? Support	8	234	Ottobre 13, 2025

Riduci lo spazio su disco locale evitando di comprimere (in modo ridondante) i backup con gzip

Argomenti correlati