Ubuntu 20.04 Kernel-Update mit Docker verursacht Absturz auf EC2 und Lightsail

Ich bin gestern Abend auf dieses Problem gestoßen, als sich mein Ubuntu 20.04 LTS automatisch aktualisiert hat. Es hat einen neuen Kernel installiert und ich habe die Kontrolle über das System verloren. Es stürzte nur wenige Minuten nach dem Booten ab. Ich habe es heute mit einer frischen Discourse-Installation erneut versucht und sobald ich das System aktualisiert habe, begann es wieder abzustürzen.

Nur eine Notiz für die Leute, aktualisieren Sie Ihre Linux-Kernel noch nicht, dies ist ein bekannter Fehler - siehe hier für weitere Details.

5 „Gefällt mir“

Die Frage ist, ob es eine Möglichkeit gibt, das System zu starten, ohne dass es Discourse/Docker startet? Läuft auf AWS Lightsail. Die einzige andere Option ist, das gesamte System neu aufzubauen, was im Moment eine PITA ist, angesichts der Backup/Restore-Probleme, mit denen ich konfrontiert bin.

EDIT: Das habe ich gefunden, mal mehr, mal weniger erfolgreich, je nachdem, wie schnell es hochfährt.

while true; do
  ssh <instance> "sudo systemctl disable docker.service; sudo systemctl disable containerd.service"
done

Dies ist auch auf zwei EC2-Instanzen passiert. Sie fielen um 5 Uhr EDT für einen Neustart aus und kamen nie wieder hoch.

2 „Gefällt mir“

Laut dem Link betrifft dies Personen, die kanonische „Cloud-Kernel“ auf Ubuntu-Maschinen ausführen. Sie haben einen Patch entfernt, der OverlayFS betrifft.

Während Canonical eine Korrektur vornimmt, können Benutzer eine andere Kernel-Version oder Debian / andere Distributionen als Workaround ausprobieren.

6 „Gefällt mir“

Ich konnte den Zyklus unterbrechen, indem ich etwa 15 Sekunden nach Beginn einen schnellen SSH-Zugriff nutzte, um die Docker-/Container-Dienste zu deaktivieren. Ich habe den Kernel auf 5.4 herabgestuft und es scheint zu funktionieren

5 „Gefällt mir“

Ja, wie ich gerade in Ihrem anderen Thread über Wiederherstellungsprobleme gepostet habe, habe ich im Wesentlichen dasselbe getan, als dieser Fehler meinen Server zum Absturz brachte. Nun, ich habe den alten Kernel gebootet; ich musste Docker oder Container nicht deaktivieren. Und der aktuelle Kernel ist wieder sicher. Hier ist ein Link zu dem, was ich in Ihrem anderen Thread gesagt habe. In Kürze werde ich versuchen, meine dauerhafte Lösung aufzuschreiben, um zu verhindern, dass dies erneut geschieht.

Ein übler Kernel-Fehler war das!

1 „Gefällt mir“

Sie können einfach zum vorherigen Kernel zurückkehren und die Maschine ist wiederhergestellt. Oder aktualisieren Sie auf den aktuellen, behobenen Kernel, der am Donnerstag herauskam.

1 „Gefällt mir“

Ich habe ein Tutorial darüber verfasst, wie man Kernel-Oops-Probleme vermeidet, die Ihren Server zum Absturz bringen oder ihn nicht wieder hochfahren lassen.

Ich habe das Tutorial auf meiner Discourse-Seite veröffentlicht, da mir das praktisch erschien. Meine Seite hat jedoch nichts mit Technik zu tun. Daher habe ich das Thema nicht aufgelistet, aber als HTML veröffentlicht.

Viel Spaß.

https://discourse.bluebottlefly.com/pub/hardening-your-server

@RBoy, vielleicht finden Sie das besonders nützlich.

/dr

1 „Gefällt mir“