Ubuntu 20.04 内核更新与 docker 导致 EC2 和 Lightsail 崩溃

我昨晚遇到了这个问题,当我的 Ubuntu 20.04 LTS 自动升级时,它安装了一个新内核,我失去了对系统的控制,它在启动几分钟后就会崩溃。我今天用一个新的 Discourse 安装再次尝试,一旦我升级了系统,它就开始再次崩溃。

供大家参考,请暂时不要更新您的 Linux 内核,这是一个已知错误 - 有关更多详细信息,请参阅此链接。

5 个赞

问题是,有没有办法在不启动 Discourse/docker 的情况下启动系统?运行在 AWS Lightsail 上。唯一的选择是重新构建整个系统,鉴于我目前面临的备份/恢复问题,这非常麻烦。

编辑:我找到了这个,效果好坏参半,取决于它启动的速度。

while true; do
  ssh <instance> "sudo systemctl disable docker.service; sudo systemctl disable containerd.service"
done

在两个 EC2 实例上也发生了这种情况。它们在东部夏令时凌晨 5 点宕机重启,但再也没有恢复。

2 个赞

根据链接,这会影响在 Ubuntu 机器上运行 Canonical “云内核” 的用户。他们移除了一个影响 OverlayFS 的补丁。

在 Canonical 推出修复程序的同时,用户可以尝试使用不同的内核版本或使用 Debian / 其他发行版作为一种变通方法。

6 个赞

我通过在启动约 15 秒后进行快速 SSH 来中断该循环,以禁用 docker/container 服务。已将内核降级到 5.4,似乎有效

5 个赞

是的,正如我在你关于恢复问题的另一个帖子中刚发布的,当这个bug导致我的服务器崩溃时,我基本上也做了同样的事情。我启动了旧内核;不必禁用docker或容器。当前的内核现在是安全的了。这是我之前帖子的链接。稍后我会写下我的永久解决方案,以防止这种情况再次发生。

真是个糟糕的内核bug!

1 个赞

您可以简单地恢复到之前的内核,机器即可恢复。或者更新到周四发布的当前已修复的内核。

1 个赞

我写了一篇关于如何避免此类导致服务器崩溃或无法恢复的内核 oops! 问题的教程。

我把教程放在了我的 Discourse 网站上,因为我觉得很方便。不过我的网站与技术无关。所以我取消了该主题的列表,但将其发布到了 HTML。

请享用。

https://discourse.bluebottlefly.com/pub/hardening-your-server

@RBoy,也许你会觉得这个特别有用。

/dr

1 个赞