PG::ConnectionBad provoca que el sitio se caiga temporalmente

LlamaSensei · 2 Abril, 2020 15:41

En los registros de errores, recibo intermitentemente los siguientes errores. Esto hace que el sitio sea inaccesible durante 15-30 segundos hasta que se restablece.

Mensaje de error de información:

PG::ConnectionBad (FATAL: el sistema de base de datos está en modo de recuperación) /var/www/discourse/vendor/bundle/ruby/2.6.0/gems/pg-1.2.3/lib/pg.rb:58:in `initialize’

Mensaje de error de entorno:

Una cosa realmente extraña que he notado al observar estos registros es que parece estar buscando la carpeta en /var/www/…, pero esa carpeta no existe en el servidor. ¿Debería existir? Agradezco cualquier ayuda.

pfaffman · 2 Abril, 2020 16:28

Si la base de datos está dañada, entonces el sitio también lo estará necesariamente. Necesitas averiguar por qué. Las razones más comunes son la falta de memoria RAM y espacio en disco. Mi suposición es que se trata de la RAM. ¿Cuánta memoria RAM tienes? ¿Qué muestra la salida de free -h?

Esa es la ruta dentro del contenedor. Si ejecutas ./launcher enter app, la verás allí.

LlamaSensei · 2 Abril, 2020 16:31

Creo que tienes razón. Aquí está la salida de free -h.

131M libres no me parece mucho.

pfaffman · 2 Abril, 2020 16:33

Bueno, tienes 646 MB disponibles y 4 GB es suficiente, por lo que normalmente no se recomienda el uso de swap. ¿Qué tamaño tiene tu base de datos? ¿Cuánto tráfico recibes? ¿Hay algo más que Discourse ejecutándose en el servidor?

LlamaSensei · 2 Abril, 2020 16:39

En el servidor no se está ejecutando nada más que Discourse.

Para obtener el tamaño, ejecuté:

./launcher enter app
rails db
SELECT pg_size_pretty(pg_database_size(current_database()));

La salida resultante fue 4650 MB (1 fila).

En cuanto al tráfico:
Ayer tuvimos 1.200 visualizaciones de página, 12.400 en la última semana. Aproximadamente 160 usuarios en la última semana y alrededor de 80 usuarios concurrentes en cualquier momento dado.

Stephen · 2 Abril, 2020 16:54

Si tienes espacio en el disco disponible, añade una partición de intercambio para darte algo de margen temporal.

LlamaSensei · 2 Abril, 2020 18:23

Le añadí 1 GB de memoria de intercambio. Veremos qué pasa durante el tráfico intenso de esta noche.

LlamaSensei · 3 Abril, 2020 15:39

¡Eres el mejor! El swap de 1 GB parece haber solucionado todos los problemas de caídas. Honestamente, me alegro de que fuera un problema de RAM y no de la base de datos. Voy a aumentar la cantidad de RAM en el servidor este fin de semana. ¡Muchas gracias a todos los que ayudaron en este hilo!

pfaffman · 3 Abril, 2020 21:15

Después de hacerlo, vuelve a ejecutar discourse-setup para que se restablezcan los parámetros de memoria.

Stephen · 3 Abril, 2020 21:28

Me pregunto si fueron afinados correctamente desde el principio.

LlamaSensei · 5 Abril, 2020 17:07

Honestamente, no estoy seguro. Antes de esto, hicimos una reconstrucción y un reinicio del servidor después de cambiar el hardware hace un tiempo. Supongo que, tras un reinicio, Discourse habría detectado cualquier cambio en el sistema.

Después de instalar el archivo de intercambio, hubo momentos en los que se utilizaban más de 4 GB de “memoria”, por lo que parece que definitivamente ese fue el problema durante nuestros momentos de mayor actividad, lo cual coincide con los periodos en los que el servidor se bloqueó. Hoy realizamos una actualización y el sitio está funcionando muy bien ahora.

pfaffman · 5 Abril, 2020 17:16

Pero no es así. Hay configuraciones que controlan, por ejemplo, cuánta memoria RAM puede usar la base de datos y que están incrustadas en app.yml. Puedes editarlas manualmente o volver a ejecutar discourse-setup.

LlamaSensei · 5 Abril, 2020 17:19

Ejecuté de nuevo la función discourse-setup hoy, ya que no estaba al tanto de eso antes. Era nuevo para mí.

Tema		Respuestas	Vistas
Rake:rebake crashes with errors: PG::ConnectionBad: PQsocket Self-hosting server-resources	11	1546	28 Febrero 2023
Rebake aborts with error message Self-hosting server-resources	4	1173	12 Marzo 2022
Discourse Bad Gateway after reboot Self-hosting	15	2247	2 Julio 2020
Rebake failing: how to diagnose and fix? Support	6	192	14 Diciembre 2025
Postgresql OOM Errors? Support postgres	1	163	26 Febrero 2025

PG::ConnectionBad provoca que el sitio se caiga temporalmente

Temas relacionados