La reconstruction a probablement réinitialisé le placement du cgroup du conteneur, ce qui expliquerait pourquoi il est à nouveau stable.
Compte tenu des erreurs originales « can’t alloc thread » et du fait que tout le reste (ulimits, TasksMax, PIDs Docker) est illimité, le principal suspect restant est la pression du cgroup PID.
Pourriez-vous vérifier lors d’une charge normale :
cat /sys/fs/cgroup/pids.current
cat /sys/fs/cgroup/pids.max
Si pids.current approche de ~2000+ par rapport à un maximum de ~2285, cela confirmerait que le conteneur atteignait le plafond PID du cgroup lors des rafales de reconnexion du planificateur / Redis.
Cela expliquerait également pourquoi le problème n’est apparu qu’après la mise à niveau (changement accru de threads) et pourquoi la reconstruction l’a temporairement résolu.