Tengo un sitio que está enviando una copia de seguridad de 20 GB a Wasabi S3. Funciona. La mayor parte del tiempo.
Pero a veces falla al subir a S3 y deja el archivo .tar.gz local. Y entonces, eventualmente, el disco se llena y me quedo con un disco lleno, el archivo .tar sin comprimir (porque no había suficiente espacio para la versión comprimida) y, pronto, un sitio roto porque el disco está lleno.
Antes de abandonar Wasabi, me gustaría intentar ver si hay alguna pista.
He revisado production.log, production.errors y los registros de sidekiq y unicorn, y no veo “acku” en ningún lugar, ni el día que falló la copia de seguridad ni cuando funcionó. ¿No debería haber algún registro en algún lugar?
Deberías recibir un mensaje privado con la salida del registro si falla. Se envía directamente a ti si es una copia de seguridad manual en la interfaz de usuario, o al grupo de administradores si es una copia de seguridad automática.
Una excepción durante la copia de seguridad también debería aparecer en /logs y, creo, en uno de los archivos de registro también. Intenta buscar EXCEPTION:.
Pero, el hecho de que mantenga archivos temporales me hace preguntarme si Sidekiq, o incluso Docker o el host, se reinician durante la copia de seguridad. Eso explicaría por qué no se ejecuta la limpieza y por qué no recibes un mensaje privado.
Correcto. Esto es muy extraño. No recibí ninguna notificación de error, ni siquiera para el caso donde solo había un archivo .tar y el disco estaba casi lleno (es un sitio actualizado en tests-passed).
Es como si la ubicación de la copia de seguridad hubiera cambiado esos días, pero no hay nada en los registros. Veo notificaciones de “éxito” en los mensajes de administración para las copias de seguridad iniciadas desde la interfaz web, pero no hay errores. He movido backup_location a una variable de entorno.