Actualización del kernel de Ubuntu 20.04 con Docker causa bloqueo en EC2 y Lightsail

Me encontré con este problema anoche, cuando mi Ubuntu 20.04 LTS se actualizó automáticamente, instaló un nuevo kernel y perdí el control del sistema, simplemente se bloqueaba a los pocos minutos de arrancar. Lo intenté de nuevo hoy con una instalación limpia de Discourse y tan pronto como actualicé el sistema, comenzó a fallar de nuevo.

Solo una nota para la gente, no actualicen sus kernels de Linux todavía, este es un error conocido - vean esto para más detalles.

5 Me gusta

La pregunta es si hay una manera de iniciar el sistema sin que inicie Discourse/docker. Se ejecuta en AWS Lightsail. La única otra opción es reconstruir todo el sistema de nuevo, lo cual es un fastidio ahora mismo dadas las dificultades de copia de seguridad/restauración que estoy experimentando.

EDITAR: Esto es lo que encontré, funciona o no dependiendo de lo rápido que se inicie.

while true; do
  ssh <instance> "sudo systemctl disable docker.service; sudo systemctl disable containerd.service"
done

Esto también me sucedió en dos instancias EC2. Se cayeron a las 5 AM EDT para reiniciarse y nunca volvieron a estar en línea.

2 Me gusta

Según el enlace, esto afecta a las personas que ejecutan “kernels en la nube” canónicos en máquinas Ubuntu. Eliminaron un parche que afecta a OverlayFS.

Mientras Canonical implementa una solución, las personas pueden probar una versión de kernel diferente o usar Debian / otra distribución como solución alternativa.

6 Me gusta

Pude interrumpir el ciclo usando un SSH rápido unos 15 segundos después de que comienza para deshabilitar los servicios de docker/contenedor. Reducí la versión del kernel a 5.4 y parece que está funcionando

5 Me gusta

Sí, como acabo de publicar en tu otro hilo sobre problemas de restauración, eso fue esencialmente lo que hice también cuando este error bloqueó mi servidor. Bueno, inicié el kernel antiguo; no tuve que deshabilitar docker ni los contenedores. Y el kernel actual está seguro de nuevo. Aquí tienes un enlace a lo que dije en tu otro hilo. En un rato intentaré escribir mi solución permanente para evitar que esto vuelva a suceder.

¡Qué error tan desagradable del kernel!

1 me gusta

Simplemente puede volver al kernel anterior y la máquina se restaura. O actualice al kernel actual y corregido, que salió el jueves.

1 me gusta

He escrito un tutorial sobre cómo evitar problemas de “kernel oops” como este que bloquean tu servidor o impiden que vuelva a funcionar.

Puse el tutorial en mi sitio de Discourse, ya que me pareció conveniente. Sin embargo, mi sitio no tiene nada que ver con tecnología. Así que despublicé el tema pero lo publiqué en HTML.

Disfrútalo.

https://discourse.bluebottlefly.com/pub/hardening-your-server

@RBoy, quizás tú en particular encuentres esto útil.

/dr

1 me gusta