Il ripristino ha probabilmente resettato l’assegnazione del cgroup del container, il che spiegherebbe perché è di nuovo stabile.
Considerati gli errori originali “can’t alloc thread” e il fatto che tutto il resto (ulimits, TasksMax, PIDs di Docker) sia illimitato, il sospetto rimanente è la pressione del cgroup dei PID.
Potresti verificare durante il carico normale:
cat /sys/fs/cgroup/pids.current
cat /sys/fs/cgroup/pids.max
Se pids.current si avvicina a ~2000+ rispetto a un massimo di ~2285, ciò confermerebbe che il container stava raggiungendo il limite dei PID del cgroup durante i picchi di riconnessione dello scheduler/Redis.
Ciò spiegherebbe anche perché il problema si è manifestato solo dopo l’aggiornamento (maggiore turnover dei thread) e perché il ripristino l’ha temporaneamente risolto.