再構築によりコンテナの cgroup 配置がリセットされた可能性があり、これが安定性が回復した理由を説明します。
元の「can’t alloc thread」エラーや、ulimits、TasksMax、Docker PIDs などが無制限であるという事実を考慮すると、残る疑念は PID cgroup の圧力です。
通常の負荷時に以下を確認してください。
cat /sys/fs/cgroup/pids.current
cat /sys/fs/cgroup/pids.max
pids.current が最大値である約 2285 に対して約 2000 以上で推移している場合、スケジューラーや Redis の再接続バースト中にコンテナが cgroup の PID 上限に達していたことが確認されます。
これにより、アップグレード後(スレッドの churn 増加)にのみ問題が発生した理由、および再構築が一時的に問題を解消した理由も説明できます。