Atualização do kernel do Ubuntu 20.04 com docker causando falha no EC2 e Lightsail

Tive esse problema ontem à noite, quando meu Ubuntu 20.04 LTS se atualizou automaticamente, ele instalou um novo kernel e perdi o controle do sistema, ele simplesmente travava alguns minutos após a inicialização. Tentei novamente hoje com uma instalação nova do Discourse e assim que atualizei o sistema, ele começou a travar novamente.

Apenas uma nota para o pessoal, não atualizem seus kernels do Linux ainda, este é um bug conhecido - veja isto para mais detalhes.

A questão é se há uma maneira de iniciar o sistema sem que ele inicie o Discourse/docker? Executando no AWS Lightsail. A única outra opção é reconstruir todo o sistema novamente, o que é um PITA (dor de cabeça) no momento, dadas as dificuldades de backup/restauração que estou enfrentando.

EDIT: Foi o que encontrei, funciona ou não, dependendo da rapidez com que ele é iniciado.

while true; do
  ssh <instance> "sudo systemctl disable docker.service; sudo systemctl disable containerd.service"
done

Eu tive isso acontecendo em duas instâncias EC2 também. Elas caíram às 5h EDT para uma reinicialização e nunca mais voltaram.

Conforme o link, isso afeta pessoas que executam “kernels de nuvem” canônicos em máquinas Ubuntu. Eles removeram um patch que afeta o OverlayFS.

Enquanto a Canonical lança uma correção, as pessoas podem tentar uma versão de kernel diferente ou usar Debian / outra distribuição como solução alternativa.

Consegui interromper o ciclo usando um SSH rápido cerca de 15 segundos após o início para desativar os serviços docker/container. Fiz o downgrade do kernel para 5.4 e parece estar funcionando

Sim, como acabei de postar em seu outro tópico sobre problemas de restauração, foi essencialmente o que eu fiz também quando esse bug travou meu servidor. Bem, eu inicializei o kernel antigo; não precisei desativar o docker ou os containers. E o kernel atual está seguro novamente. Aqui está um link para o que eu disse em seu outro tópico. Em um momento, tentarei escrever minha solução permanente para evitar que isso aconteça novamente.

Bug de kernel desagradável, foi isso!

Você simplesmente pode reverter para o kernel anterior e a máquina é restaurada. Ou atualizar para o kernel atual e corrigido, que foi lançado na quinta-feira.

Escrevi um tutorial sobre como evitar problemas de kernel oops! como este que travam seu servidor ou impedem que ele volte a funcionar.

Coloquei o tutorial no meu site Discourse, pois me pareceu conveniente. Meu site não tem nada a ver com tecnologia, no entanto. Por isso, deslistei o tópico, mas o publiquei em HTML.

Aproveite.

https://discourse.bluebottlefly.com/pub/hardening-your-server

@RBoy, talvez você em particular ache isso útil.

/dr