La restauración grande falla a mitad de camino

mmcc · 6 Enero, 2025 21:39

¡Hola de nuevo! Dejé la última migración de la que publiqué, pero la retomé. Se volvió un poco más urgente con algunos problemas en el host (desactualizado) donde vivía la instalación original.

Contexto: Durante la migración a una nueva instancia, decidí migrar a una instancia externa de PG y Redis. La configuración de la instalación nueva salió bien, y planeo hacer una copia de seguridad + restauración desde la línea de comandos para la migración en sí. Actualmente estoy intentando probar el flujo de trabajo y asegurarme de que la instancia recién restaurada funcione como se espera antes de poner la instancia original en modo de solo lectura y continuar, especialmente dado que esta es una instancia bastante antigua/grande que estoy migrando.

Instancia antigua: configuración simple de autoalojamiento, una instancia con PG, Postgres y Redis estándar colocalizados.
Instancia nueva: Mismo app.yml, pero con PG + Redis externos y administrados (DigitalOcean).

El comando de restauración parece funcionar bien durante bastante tiempo. Luego, después de un tiempo considerable, obtengo consistentemente un error que se ve así (incluyendo algunos registros de éxito como contexto):

COPY 99820
COPY 3216770
COPY 3251307
SSL connection has been closed unexpectedly
FATAL:  terminating connection due to administrator command
CONTEXT:  COPY post_timings, line 63404000: "8311	4897	1816	6999"
SSL connection has been closed unexpectedly
FATAL:  terminating connection due to administrator command
CONTEXT:  COPY post_timings, line 63404000: "8311	4897	1816	6999"
invalid socket
connection to server was lost
EXCEPTION: psql failed: connection to server was lost
/var/www/discourse/lib/backup_restore/database_restorer.rb:95:in `restore_dump'

Ha ocurrido en diferentes puntos de copia específicos en diferentes ejecuciones, por lo que, hasta donde puedo decir, esto no tiene nada que ver con la migración en sí. Dado que claramente todas las conexiones de la base de datos funcionan, creo que es seguro asumir que esto está relacionado con el comportamiento de DigitalOcean, pero espero que alguien más aquí haya visto algo como esto antes y pueda orientarme.

supermathie · 6 Enero, 2025 21:48

Dado que es una instancia de PG administrada, querrá revisar los registros de ese servicio.

(¡siempre revise los registros!)

Es posible que descubra por qué sucedió esto, por ejemplo, tal vez tenga configurada una vida útil máxima de conexión y la restauración tarde más en completarse.

mmcc · 7 Enero, 2025 02:33

Bueno… eh… revisé los registros y era en su mayoría la misma información que estaba viendo en los registros de Discourse, pero al revisar más atrás, en realidad revisé los gráficos históricos de esa época… había subdimensionado la base de datos de prueba así que se llenó y DO simplemente mata la conexión. Doh.

Redimensioné todo y nos sentimos tontos pero volvemos a la carga.

Tema		Respuestas	Vistas
Timeout when restoring a backup Self-hosting	1	910	16 Noviembre 2020
Error when migrating to an external postgres instance Self-hosting	11	521	18 Enero 2024
Can't restore saved backup Self-hosting	3	1273	7 Marzo 2017
Restore fails, hangs, timeouts on ALTER TABLE Support	2	440	3 Abril 2021
Restore error -- database escape problem? Support	6	1367	2 Septiembre 2016

La restauración grande falla a mitad de camino

Temas relacionados