Aggiornamento del kernel di Ubuntu 20.04 con docker che causa un crash su EC2 e Lightsail

Ho riscontrato questo problema ieri sera, quando il mio Ubuntu 20.04 LTS si è aggiornato automaticamente, ha installato un nuovo kernel e ho perso il controllo del sistema, si bloccava pochi minuti dopo l’avvio. Ci ho riprovato oggi con una nuova installazione di Discourse e non appena ho aggiornato il sistema ha ricominciato a bloccarsi.

Solo una nota per chi legge, non aggiornate ancora i vostri kernel Linux, questo è un bug noto - vedi qui per maggiori dettagli.

5 Mi Piace

La domanda è se esiste un modo per avviare il sistema senza avviare Discourse/docker? In esecuzione su AWS Lightsail. L’unica altra opzione è ricostruire l’intero sistema di nuovo, il che è una seccatura in questo momento dati i problemi di backup/ripristino che sto affrontando.

EDIT: Questo è quello che ho trovato, con risultati alterni a seconda di quanto velocemente si avvia.

while true; do
  ssh <instance> "sudo systemctl disable docker.service; sudo systemctl disable containerd.service"
done

È successo anche a due istanze EC2. Sono andate giù alle 5:00 EDT per un riavvio e non sono più tornate su.

2 Mi Piace

Secondo il link, questo riguarda le persone che eseguono “cloud kernel” canonici su macchine Ubuntu. Hanno rimosso una patch che interessa OverlayFS.

Mentre Canonical prepara una correzione, le persone possono provare una versione del kernel diversa o utilizzare Debian / altre distribuzioni come soluzione alternativa.

6 Mi Piace

Sono riuscito a interrompere il ciclo utilizzando un rapido SSH circa 15 secondi dopo l’avvio per disabilitare i servizi docker/container. Ho eseguito il downgrade del kernel alla versione 5.4 e sembra funzionare

5 Mi Piace

Sì, come ho appena pubblicato nell’altro thread sui problemi di ripristino, è essenzialmente quello che ho fatto anch’io quando questo bug ha bloccato il mio server. Beh, ho avviato il vecchio kernel; non ho dovuto disabilitare docker o i container. E il kernel attuale è di nuovo sicuro. Ecco un link a quello che ho detto nell’altro thread. Tra un po’ cercherò di scrivere la mia soluzione permanente per evitare che ciò accada di nuovo.

Brutto bug del kernel, quello!

1 Mi Piace

Puoi semplicemente tornare al kernel precedente e la macchina viene ripristinata. Oppure aggiornare al kernel corrente e corretto, uscito giovedì.

1 Mi Piace

Ho scritto un tutorial su come evitare problemi di “kernel oops!” che bloccano il tuo server o gli impediscono di riavviarsi.

Ho messo il tutorial sul mio sito Discourse, dato che mi sembrava comodo. Il mio sito non ha nulla a che fare con la tecnologia, però. Quindi ho reso l’argomento non elencato ma l’ho pubblicato in HTML.

Buona lettura.

https://discourse.bluebottlefly.com/pub/hardening-your-server

@RBoy, forse tu in particolare lo troverai utile.

/dr

1 Mi Piace