Processus Postgres en boucle infinie et mauvaise performance après réinstallation/restauration

helmi · Février 17, 2025, 9:48

Dans le but de mettre à jour notre Forum, j’ai effectué une nouvelle installation de VPS + restauration ce week-end.

Cela allait résoudre plusieurs problèmes pour nous :

Renouveler Ubuntu obsolète
Mettre à jour Discourse
Passer à Postgres 15

Bien que les choses se soient globalement bien passées, j’ai constaté par la suite des problèmes avec les processus Postgres qui s’emballaient, utilisant 100 % d’un cœur. Le nombre de processus variait cependant. J’ai essayé plusieurs choses, d’une reconstruction à des redémarrages. J’essaie actuellement un rake db:validate_indexes qui tourne déjà depuis quelques heures sans aucun retour. Je ne suis pas sûr si je l’avais déjà fait auparavant et si cela est censé se faire plus rapidement.

L’utilisation du forum fonctionne bien en gros, mais est nettement ralentie. Certaines tâches de longue durée, comme l’affichage des profils d’utilisateurs plus actifs, prennent notablement plus de temps que d’habitude.

Je suis presque sûr qu’il y a des problèmes avec la base de données, mais j’ai du mal à identifier lesquels.

Je dois dire que notre base de données est assez énorme - nous sommes à environ 150 Go après la restauration et après la création des index. En surveillant le processus de restauration, je n’ai vu aucune erreur et la création des index s’est déroulée correctement à mes yeux.

Des idées sur la façon de s’attaquer à ce problème ? Il y a actuellement 3 processus postgres - il y en avait 6 avant un redémarrage que j’ai effectué il y a quelques heures - j’ai déjà vu les 16 cœurs être utilisés après la restauration également.

EDIT : Je viens de remarquer que 3 processus sidekiq sont occupés à “indexer les catégories pour la recherche”. Cela pourrait-il être simplement la reconstruction de l’index de recherche ? Si oui, cela peut-il être résolu autrement ? Lorsque nous effectuerons la restauration du système en direct, ce sera un énorme problème si cela dégrade les performances pendant plusieurs heures, voire plusieurs jours.

helmi · Février 17, 2025, 2:00

Pour le moment, une seule tâche sidekiq s’exécute avec « Jobs::BackfillBadge », mais 7 processus postgres bloquent toujours constamment 100 % du CPU. Je suis vraiment curieux de savoir ce qui se passe là-bas.

Falco · Février 17, 2025, 2:08

Après de telles opérations, il est conseillé d’exécuter un vacuum pour les statistiques de la base de données.

pfaffman · Février 17, 2025, 3:53

Combien de RAM et de CPU avez-vous ?

Combien de mémoire donnez-vous à postgres ?

helmi · Février 17, 2025, 4:02

Ce serveur de test est sur 32 Go, 16 cœurs, la configuration est réglée sur 64 Mo de mémoire de travail.

EDIT : Les buffers partagés sont à 8 Go

Je suis actuellement en train de faire un vacuum qui semble bloqué

Je ne sais pas si cela fait quelque chose, mais cela fait déjà plus de 30 minutes que c’est là.

J’ai mis le forum en lecture seule et redémarré la VM pour arrêter les 7 processus Postgres qui étaient “bloqués” là auparavant. Peu de temps après le redémarrage, 2 de ces processus postgres sont revenus et n’ont pas changé. Rien ne tourne dans sidekiq actuellement.

Falco · Février 17, 2025, 4:14

Vous ne voulez vraiment pas exécuter un VACUUM complet. Tout ce dont vous avez besoin pour retrouver les performances est un VACUUM VERBOSE ANALYZE. Vous ne pouvez pas exécuter un FULL sur un site en cours d’exécution.

pfaffman · Février 17, 2025, 4:21

Je ne suis pas un expert en bases de données énormes, mais je ferais les tampons deux ou trois fois plus grands.

Je suis sûr que vous avez des index de 8 Go.

RGJ · Février 17, 2025, 5:32

Postgres recommande de ne jamais définir shared_buffers à plus de 40 % de la mémoire interne ?

Cela dit,

Votre serveur pourrait être sous-dimensionné.

pfaffman · Février 17, 2025, 5:40

Ah ! Des conseils sensés d’un expert ! J’avais donc peut-être raison de penser que 8 Go/25 % n’était pas suffisant, et même si 16 Go représentent plus de 40 %, cela pourrait quand même être une bonne suggestion parce que…

helmi · Février 17, 2025, 7:00

Les gars. comme dit, c’est un serveur de test - il n’y a pas de trafic dessus. Ce serveur n’est absolument pas assez bon pour une utilisation en production, mais ce n’est pas le problème ici. La question est de savoir pourquoi nous voyons des processus postgres bloqués comme ça (avec 100% d’utilisation du CPU) et ralentissant considérablement les choses. Nous faisions fonctionner le serveur de test avec une capacité inférieure même il y a quelques jours - il n’a été augmenté qu’en raison du manque d’espace disque pour une restauration.

La machine de production fonctionne avec 128 Go de RAM avec les mêmes paramètres de tampon partagé sans aucun problème - Je ne pense donc pas qu’il y ait un problème général avec ces paramètres et la taille du tampon partagé - surtout pas une machine de test privée sans trafic.

Mais bref - je vais simplement refaire la restauration et voir si quelque chose a pu mal tourner car il n’y a apparemment pas de bonne explication pour ce comportement.

Sujet		Réponses	Vues
Slow Sidekiq + Postmaster using 95%+ CPU (32 cores) after Postgresql Version Upgrade Installation server-resources	23	2928	Juin 28, 2020
Postgres using 100% of CPU Installation server-resources	18	20029	Avril 10, 2021
Post 3.5.1 update - CPU maxed out 100% Support	5	97	Février 4, 2025
Primary Postgres database process (postmaster) eating all CPU Installation server-resources	13	4031	Mai 28, 2020
Server load issues (after rebuild hanged) Installation	4	204	Mai 19, 2024

Processus Postgres en boucle infinie et mauvaise performance après réinstallation/restauration

Sujets connexes