Atualização do kernel do Ubuntu 20.04 com docker causando falha no EC2 e Lightsail

Tive esse problema ontem à noite, quando meu Ubuntu 20.04 LTS se atualizou automaticamente, ele instalou um novo kernel e perdi o controle do sistema, ele simplesmente travava alguns minutos após a inicialização. Tentei novamente hoje com uma instalação nova do Discourse e assim que atualizei o sistema, ele começou a travar novamente.

Apenas uma nota para o pessoal, não atualizem seus kernels do Linux ainda, este é um bug conhecido - veja isto para mais detalhes.

5 curtidas

A questão é se há uma maneira de iniciar o sistema sem que ele inicie o Discourse/docker? Executando no AWS Lightsail. A única outra opção é reconstruir todo o sistema novamente, o que é um PITA (dor de cabeça) no momento, dadas as dificuldades de backup/restauração que estou enfrentando.

EDIT: Foi o que encontrei, funciona ou não, dependendo da rapidez com que ele é iniciado.

while true; do
  ssh <instance> "sudo systemctl disable docker.service; sudo systemctl disable containerd.service"
done

Eu tive isso acontecendo em duas instâncias EC2 também. Elas caíram às 5h EDT para uma reinicialização e nunca mais voltaram.

2 curtidas

Conforme o link, isso afeta pessoas que executam “kernels de nuvem” canônicos em máquinas Ubuntu. Eles removeram um patch que afeta o OverlayFS.

Enquanto a Canonical lança uma correção, as pessoas podem tentar uma versão de kernel diferente ou usar Debian / outra distribuição como solução alternativa.

6 curtidas

Consegui interromper o ciclo usando um SSH rápido cerca de 15 segundos após o início para desativar os serviços docker/container. Fiz o downgrade do kernel para 5.4 e parece estar funcionando

5 curtidas

Sim, como acabei de postar em seu outro tópico sobre problemas de restauração, foi essencialmente o que eu fiz também quando esse bug travou meu servidor. Bem, eu inicializei o kernel antigo; não precisei desativar o docker ou os containers. E o kernel atual está seguro novamente. Aqui está um link para o que eu disse em seu outro tópico. Em um momento, tentarei escrever minha solução permanente para evitar que isso aconteça novamente.

Bug de kernel desagradável, foi isso!

1 curtida

Você simplesmente pode reverter para o kernel anterior e a máquina é restaurada. Ou atualizar para o kernel atual e corrigido, que foi lançado na quinta-feira.

1 curtida

Escrevi um tutorial sobre como evitar problemas de kernel oops! como este que travam seu servidor ou impedem que ele volte a funcionar.

Coloquei o tutorial no meu site Discourse, pois me pareceu conveniente. Meu site não tem nada a ver com tecnologia, no entanto. Por isso, deslistei o tópico, mas o publiquei em HTML.

Aproveite.

https://discourse.bluebottlefly.com/pub/hardening-your-server

@RBoy, talvez você em particular ache isso útil.

/dr

1 curtida