La reconstrucción probablemente restableció la ubicación del cgroup del contenedor, lo que explicaría por qué ha vuelto a ser estable.
Dado los errores originales de “can’t alloc thread” y el hecho de que todo lo demás (ulimits, TasksMax, PIDs de Docker) esté ilimitado, el sospechoso restante es la presión del cgroup de PIDs.
¿Podrías verificar durante la carga normal:
cat /sys/fs/cgroup/pids.current
cat /sys/fs/cgroup/pids.max
Si pids.current se acerca a ~2000+ frente a un máximo de ~2285, eso confirmaría que el contenedor estaba alcanzando el límite de PIDs del cgroup durante los ráfagas de reintentos del programador / Redis.
Eso también explicaría por qué el problema solo apareció después de la actualización (mayor churn de hilos) y por qué la reconstrucción lo solucionó temporalmente.