Обновление ядра Ubuntu 20.04 с Docker вызывает сбой на EC2 и Lightsail

Вчера я столкнулся с этой проблемой: когда мой Ubuntu 20.04 LTS автоматически обновился, он установил новое ядро, и я потерял контроль над системой — она просто падала через несколько минут после загрузки. Сегодня я повторил попытку с чистой установкой Discourse, и как только я обновил систему, она снова начала падать.

Для информации: пока не обновляйте ядра Linux, это известная ошибка — подробнее см. здесь.

Вопрос в том, можно ли запустить систему без запуска Discourse/docker. Работает на AWS Lightsail. Единственная другая опция — пересобрать всю систему заново, что сейчас крайне неудобно из-за проблем с резервным копированием и восстановлением, с которыми я столкнулся.

РЕДАКТИРОВАНИЕ: Вот что я нашел, работает нестабильно в зависимости от скорости запуска:

while true; do
  ssh <instance> "sudo systemctl disable docker.service; sudo systemctl disable containerd.service"
done

У меня это произошло и на двух экземплярах EC2. Они отключились в 5:00 по восточному времени (EDT) для перезагрузки и так и не вернулись в работу.

Согласно ссылке, это затрагивает пользователей, работающих с каноническими «облачными ядрами» на машинах Ubuntu. Они удалили патч, влияющий на OverlayFS.

Пока Canonical готовит исправление, пользователи могут попробовать другую версию ядра или использовать Debian / другую дистрибуцию в качестве обходного пути.

Мне удалось прервать цикл, используя быстрое SSH примерно через 15 секунд после запуска, чтобы отключить службы Docker/контейнеров. Я откатил ядро до версии 5.4, и, похоже, всё работает.

Да, как я только что написал в вашей другой теме о проблемах с восстановлением, я сделал практически то же самое, когда эта ошибка привела мой сервер к краху. Я загрузил старое ядро; не пришлось отключать docker или контейнеры. И текущее ядро снова в безопасности. Вот ссылка на то, что я написал в вашей другой теме. Чуть позже я постараюсь описать моё постоянное решение, чтобы предотвратить повторение этого в будущем.

Это была мерзкая ошибка ядра!

Вы можете просто откатиться к предыдущему ядру, и система восстановится. Или обновитесь до текущего исправленного ядра, которое вышло в четверг.

Я написал руководство о том, как избежать проблем с «kernel oops», которые приводят к падению сервера или мешают его запуску.

Я разместил это руководство на своём сайте Discourse, так как это показалось мне удобным. Мой сайт не имеет отношения к технологиям, поэтому я скрыл тему из списка, но опубликовал её в формате HTML.

Приятного чтения.

https://discourse.bluebottlefly.com/pub/hardening-your-server

@RBoy, возможно, именно тебе это будет полезно.

/dr