Restauração falhando: possível problema no Data Explorer

Mark_Schmucker · Novembro 30, 2019, 3:02am

Tenho um fórum funcional e gostaria de ver algumas coisas que deram errado há alguns dias. Estou na AWS, então criei uma AMI do fórum funcional, iniciei uma nova instância e tentei restaurar um backup de alguns dias atrás. A operação falhou com as mensagens abaixo.

Não pode ser um erro de versão ou incompatibilidade de esquema, pois o servidor foi construído a partir de uma imagem fresca do fórum funcional.

Tentei reconstruir.

Tentei restaurar a partir de um backup diferente de apenas um dia atrás — mesmo resultado.

A única coisa estranha que fiz foi excluir arquivos PDF do diretório de uploads (…/uploads/original/1X/*.pdf) para liberar espaço. Vou tentar novamente sem esse passo, mas parece improvável que seja o culpado.

> [2019-11-30 01:17:44] 'admin' iniciou a restauração!
> [2019-11-30 01:17:44] Marcando restauração como em execução...
> [2019-11-30 01:17:44] Verificando se /var/www/discourse/tmp/restores/default/2019-11-30-011744 existe...
> [2019-11-30 01:17:44] Baixando o arquivo compactado para o diretório temporário...
> [2019-11-30 01:23:24] Descompactando o arquivo, isso pode levar algum tempo...
> [2019-11-30 01:27:52] Nenhum arquivo de metadados para extrair.
> [2019-11-30 01:27:52] Validando metadados...
> [2019-11-30 01:27:52]   Versão atual: 20191129144706
> [2019-11-30 01:27:52]   Versão restaurada: 20191120015344
> [2019-11-30 01:27:52] Extraindo o arquivo de dump...
> [2019-11-30 01:50:57] comando inválido \N
> [2019-11-30 01:50:57] comando inválido \N
> 
> 
> < repete cerca de 100 vezes >
> 
> [2019-11-30 01:51:07] comando inválido \N
> [2019-11-30 01:54:13] comando inválido \N
> [2019-11-30 01:54:13] EXCEÇÃO: psql falhou
> [2019-11-30 01:54:14] /var/www/discourse/lib/backup_restore/restorer.rb:331:in `restore_dump'
> /var/www/discourse/lib/backup_restore/restorer.rb:75:in `run'
> /var/www/discourse/lib/backup_restore.rb:166:in `block in start!'
> /var/www/discourse/lib/backup_restore.rb:163:in `fork'
> /var/www/discourse/lib/backup_restore.rb:163:in `start!'
> /var/www/discourse/lib/backup_restore.rb:22:in `restore!'
> /var/www/discourse/app/controllers/admin/backups_controller.rb:119:in `restore'
> etc...

RGJ · Novembro 30, 2019, 6:41am

No entanto, o erro invalid command \N é típico de uma incompatibilidade de versão do Postgres…

Mark_Schmucker · Novembro 30, 2019, 7:01am

root@example:/var/www/discourse# psql --version
psql (PostgreSQL) 10.10 (Debian 10.10-1.pgdg100+1)

É a mesma versão no novo servidor e o fórum está funcionando.

pfaffman · Novembro 30, 2019, 12:05pm

Eu associaria esses erros à compatibilidade de versão do PostgreSQL, mas vi esses erros de \N outro dia em um sistema que ficou sem espaço em disco (eu estava restaurando no mesmo sistema que fez o backup). Não concluí o diagnóstico do problema (era outro problema bizarro que eu estava enfrentando, e restaurar um backup em outro servidor resolveu o problema; fiquei me perguntando se restaurar no mesmo servidor teria resolvido).

Você mencionou que estava com pouco espaço. Suspeito que esse seja o problema. A restauração consome muito espaço, pois descomprime o backup e, portanto, exige duas cópias completas dele, além do espaço necessário para realizar a restauração e permitir o revert caso ocorra falha.

RGJ · Novembro 30, 2019, 2:59pm

Então, leva 23 minutos antes de falhar?

Mark_Schmucker · Dezembro 1, 2019, 12:23am

Piora, mas talvez esteja mais próximo do verdadeiro problema… Na hipótese de que eu precisasse de mais espaço em disco, criei uma nova instância a partir da minha imagem, desta vez com 100 GB, em comparação com os 50 GB anteriores. (Os backups têm 5 GB cada e são armazenados no S3.) Desta vez, obtive um erro explícito: “No space left on device” (Sem espaço restante no dispositivo). No entanto, o comando df mostra bastante espaço livre.

> [2019-11-29 22:42:58] Garantindo que /var/www/discourse/tmp/restores/default/2019-11-29-224258 existe...
> [2019-11-29 22:42:58] Baixando o arquivo para o diretório tmp...
> [2019-11-29 22:45:46] Descompactando o arquivo, isso pode demorar um pouco...
> [2019-11-29 22:51:46] Nenhum arquivo de metadados para extrair.
> [2019-11-29 22:51:46] Validando metadados...
> [2019-11-29 22:51:46]   Versão atual: 20191129144706
> [2019-11-29 22:51:46]   Versão restaurada: 20191108000414
> [2019-11-29 22:51:46] Extraindo o arquivo dump...
> [2019-11-29 22:53:47] EXCEÇÃO: No space left on device @ io_write - /shared/tmp/restores/default/2019-11-29-224258/dump.sql

> [ec2-user@ip-172-31-47-237 discourse]$ df / -h
> Filesystem      Size  Used Avail Use% Mounted on
> /dev/xvda1       99G   28G   71G  28% /

Curiosamente, não há nada no diretório referenciado:

> /var/www/discourse# ls /shared/tmp/*
> /shared/tmp/backups:
> < vazio >
> /shared/tmp/restores:
> < vazio >

Poderia ser um problema com o arquivo de swap? A instância EC2 é uma t2.small com 2 GB de memória, então há muito tempo criei um arquivo de swap no fórum que estava funcionando. Acredito que o arquivo de swap seria replicado na nova instância. Não sou especialista, mas acho que o arquivo de swap existe, pois não me permitiu criar um novo e também porque:

> /var/www/discourse# swapon -s
> Filename                                Type            Size    Used    Priority
> /swapfile                               file            2097148 1024    -2

RGJ · Dezembro 1, 2019, 7:42am

Pode ser um problema de inodes. O que o df -i mostra para você?

Mark_Schmucker · Dezembro 1, 2019, 7:56am

df -i
Arquivo de sistema Inodos IUsado ILivre Uso% Montado em
devtmpfs 252562 437 252125 1% /dev
tmpfs 255203 1 255202 1% /dev/shm
/dev/xvda1 6553600 737194 5816406 12% /

Estou fora da minha liga, mas acho que isso não é ruim, certo?

RGJ · Dezembro 1, 2019, 8:14am

Não, tudo bem.

‘No space left on device’ não ocorre apenas quando o dispositivo está sem gigabytes, mas também quando o sistema de arquivos está sem inodes. Mas claramente esse não é o problema aqui. (iUse% estaria em 100% então).

Mark_Schmucker · Dezembro 7, 2019, 5:30am

Ainda sem sucesso. Pensei em tentar restaurar em uma nova instância do Lightsail, em vez de lançar uma AMI da minha instância EC2 funcional. Ainda falha, mas as mensagens são um pouco diferentes.

Ambas as instâncias, antiga e nova, estão atualizadas, ambas são instalações padrão do Docker, e ambas estão executando a mesma versão do postgres:

psql --version
psql (PostgreSQL) 10.10 (Debian 10.10-1.pgdg100+1)

Isso é normal:

Criando funções ausentes no esquema discourse_functions
Não é possível restaurar em um esquema diferente, restaurando no local

Poderia estar relacionado a plugins? Tenho vários plugins, tanto suportados quanto personalizados, instalados no site “origem”. Alguns usam campos de usuário personalizados. Tentei restaurar em sites “destino” limpos, com e sem plugins.

Alguma orientação sobre como começar a comparar os esquemas?

> [2019-12-07 04:51:36] 'admin' iniciou a restauração!
> [2019-12-07 04:51:36] Marcando a restauração como em andamento...
> [2019-12-07 04:51:36] Garantindo que /var/www/discourse/tmp/restores/default/2019-12-07-045136 exista...
> [2019-12-07 04:51:36] Baixando o arquivo compactado para o diretório tmp...
> [2019-12-07 04:53:49] Descompactando o arquivo, isso pode levar um tempo...
> [2019-12-07 04:57:12] Nenhum arquivo de metadados para extrair.
> [2019-12-07 04:57:12] Validando metadados...
> [2019-12-07 04:57:12]   Versão atual: 20191129144706
> [2019-12-07 04:57:12]   Versão restaurada: 20191120015344
> [2019-12-07 04:57:12] Extraindo o arquivo de dump...
> [2019-12-07 04:59:10] Criando funções ausentes no esquema discourse_functions
> [2019-12-07 04:59:11] Não é possível restaurar em um esquema diferente, restaurando no local
> [2019-12-07 05:05:02] ERRO: a transação atual foi abortada, comandos ignorados até o fim do bloco de transação
> [2019-12-07 05:05:03] ERRO: a transação atual foi abortada, comandos ignorados até o fim do bloco de transação
> < repete cerca de 100 vezes >
> [2019-12-07 05:05:03] ERRO: a transação atual foi abortada, comandos ignorados até o fim do bloco de transação
> [2019-12-07 05:05:03] EXCEÇÃO: psql falhou
> [2019-12-07 05:05:03] /var/www/discourse/lib/backup_restore/restorer.rb:331:in `restore_dump'
> /var/www/discourse/lib/backup_restore/restorer.rb:75:in `run'
> /var/www/discourse/lib/backup_restore.rb:166:in `block in start!'
> /var/www/discourse/lib/backup_restore.rb:163:in `fork'
> /var/www/discourse/lib/backup_restore.rb:163:in `start!'
> /var/www/discourse/lib/backup_restore.rb:22:in `restore!'
> /var/www/discourse/app/controllers/admin/backups_controller.rb:119:in `restore'
> < resto do rastreamento >

RGJ · Dezembro 7, 2019, 5:49am

Sim, isso é normal.

Claramente, algo está errado dentro do PostgreSQL. Você já analisou os logs dele?

Aposta arriscada: isso pode estar relacionado à memória? Você pode tentar monitorar a saída do free -m durante a restauração e verificar se a memória (virtual) se esgota.

Mark_Schmucker · Dezembro 7, 2019, 6:31am

Sei que é uma pergunta difícil, já que não sabemos qual é o problema, mas, em geral, devo instalar os plugins no site de destino antes de tentar restaurar? Ou a restauração baixa e cria os plugins?

RGJ · Dezembro 7, 2019, 6:55am

Sim, você deve — a restauração não fará isso por você.

Por outro lado, não acho que esse seja o seu problema, já que a restauração vai cuidar da estrutura correta do banco de dados (incluindo itens específicos de plugins).

Mark_Schmucker · Dezembro 7, 2019, 7:58am

Criei um novo Lightsail de $20 com 4 GB de memória. Acompanhei o comando ‘free -m’ durante a restauração. Sempre houve memória livre e disponível em quantidade suficiente.

Os erros específicos variam dependendo de eu ter instalado os plugins ou não, mas provavelmente têm a mesma causa raiz. Neste caso, não instalei os plugins antes do backup. Existem duas classes de erros:

Nos logs do postgres, recebo muitos desses, às vezes no caractere 34 e às vezes no caractere 41.

discourse@discourse ERROR: relação “user_auth_tokens” não existe no caractere 34

Esses não têm uma saída correspondente na página admin > backup > log, e a restauração continua por vários minutos apesar desses erros.

O segundo erro depende de os plugins estarem instalados. Neste caso, não os instalei, então recebo um erro sobre o Data Explorer, e é aí que tudo dá errado.

Em admin > backup > logs:

[2019-12-07 07:38:34] CREATE INDEX
[2019-12-07 07:38:34] CREATE INDEX
[2019-12-07 07:38:34] ERROR: não foi possível criar o índice único “index_plugin_store_rows_on_plugin_name_and_key”
[2019-12-07 07:38:34] DETAIL: A chave (plugin_name, key)=(discourse-data-explorer, q:-6) está duplicada.
[2019-12-07 07:38:34] ERROR: a transação atual foi abortada, comandos ignorados até o final do bloco de transação
[2019-12-07 07:38:34] ERROR: a transação atual foi abortada, comandos ignorados até o final do bloco de transação
< repete 1000X e encerra >

E a saída correspondente no log do postgres:

2019-12-07 07:38:34.718 UTC [8991] discourse@discourse LOG: duração: 165.427 ms statement: CREATE INDEX index_notifications_on_user_
id_and_topic_id_and_post_number ON public.notifications USING btree (user_id, topic_id, post_number);
2019-12-07 07:38:34.767 UTC [8991] discourse@discourse ERROR: não foi possível criar o índice único “index_plugin_store_rows_on_plugin_name_an
d_key”
2019-12-07 07:38:34.767 UTC [8991] discourse@discourse DETAIL: A chave (plugin_name, key)=(discourse-data-explorer, q:-6) está duplicada.
2019-12-07 07:38:34.767 UTC [8991] discourse@discourse STATEMENT: CREATE UNIQUE INDEX index_plugin_store_rows_on_plugin_name_and_key O
N public.plugin_store_rows USING btree (plugin_name, key);
2019-12-07 07:38:34.984 UTC [8991] discourse@discourse ERROR: a transação atual foi abortada, comandos ignorados até o final do bloco de transactio
n
2019-12-07 07:38:34.984 UTC [8991] discourse@discourse STATEMENT: CREATE INDEX index_policy_users_on_post_policy_id_and_user_id ON pub
lic.policy_users USING btree (post_policy_id, user_id);

RGJ · Dezembro 7, 2019, 8:18am

Acho que o #1 não é fatal e é apenas um efeito colateral da restauração no local.

Você pode considerar (exportar e) excluir todas as consultas do explorador de dados e remover o plugin do explorador de dados antes de criar seu backup.

Alternativamente, você pode postar o conteúdo relevante da tabela plugin_store_rows?

Mark_Schmucker · Dezembro 7, 2019, 10:40pm

De fato, existem consultas duplicadas com pares (plugin_name, key) duplicados, por exemplo, q:-11 e q:-2, mas com IDs únicos. Não vejo nenhum padrão entre as duplicatas, como se fossem minhas consultas favoritas ou algo assim.

Portanto, meu próximo passo será remover as duplicatas, fazer um backup e tentar restaurar a partir dele.

SELECT id, plugin_name, key from plugin_store_rows
WHERE plugin_name = ‘discourse-data-explorer’
ORDER BY key

id plugin_name key

1138 discourse-data-explorer q:-1

1136 discourse-data-explorer q:-10

813 discourse-data-explorer q:10

1142 discourse-data-explorer q:-11

1397 discourse-data-explorer q:-11

825 discourse-data-explorer q:11

889 discourse-data-explorer q:13

1004 discourse-data-explorer q:14

1005 discourse-data-explorer q:15

1043 discourse-data-explorer q:17

1044 discourse-data-explorer q:18

514 discourse-data-explorer q:-2

1249 discourse-data-explorer q:-2

764 discourse-data-explorer q:2

1053 discourse-data-explorer q:21

1066 discourse-data-explorer q:22

1082 discourse-data-explorer q:23

1097 discourse-data-explorer q:24

1131 discourse-data-explorer q:26

1132 discourse-data-explorer q:27

1134 discourse-data-explorer q:28

1135 discourse-data-explorer q:29

775 discourse-data-explorer q:3

1137 discourse-data-explorer q:30

1140 discourse-data-explorer q:31

1141 discourse-data-explorer q:32

1143 discourse-data-explorer q:33

1149 discourse-data-explorer q:34

1155 discourse-data-explorer q:35

1156 discourse-data-explorer q:36

1157 discourse-data-explorer q:37

1158 discourse-data-explorer q:38

1161 discourse-data-explorer q:39

513 discourse-data-explorer q:-4

777 discourse-data-explorer q:4

1211 discourse-data-explorer q:40

1215 discourse-data-explorer q:41

1223 discourse-data-explorer q:42

1224 discourse-data-explorer q:43

1225 discourse-data-explorer q:44

1226 discourse-data-explorer q:45

1269 discourse-data-explorer q:46

1272 discourse-data-explorer q:47

1273 discourse-data-explorer q:48

1274 discourse-data-explorer q:49

1279 discourse-data-explorer q:50

1281 discourse-data-explorer q:51

1282 discourse-data-explorer q:52

1301 discourse-data-explorer q:53

1349 discourse-data-explorer q:54

1369 discourse-data-explorer q:55

1373 discourse-data-explorer q:56

1384 discourse-data-explorer q:57

1387 discourse-data-explorer q:58

1396 discourse-data-explorer q:59

1222 discourse-data-explorer q:-6

1348 discourse-data-explorer q:-6

781 discourse-data-explorer q:6

763 discourse-data-explorer q:-7

782 discourse-data-explorer q:7

515 discourse-data-explorer q:-8

791 discourse-data-explorer q:8

1139 discourse-data-explorer q:-9

798 discourse-data-explorer q:9

507 discourse-data-explorer q:_id

Mark_Schmucker · Dezembro 7, 2019, 10:56pm

Na verdade, como posso excluir os duplicados? Todos os três são de propriedade do “system”, então não posso editá-los/excluí-los.

Mark_Schmucker · Dezembro 7, 2019, 11:02pm

Encontrei o padrão. Quando executo uma consulta de propriedade do sistema, ele cria uma duplicata, o que, evidentemente, quebra a restauração.

Mark_Schmucker · Dezembro 7, 2019, 11:55pm

Não consigo reproduzir isso em um site de teste limpo, mas ocorre consistentemente no meu site de produção. Instalei todos os plugins de produção no site de teste, mas ainda não consigo reproduzir.

Como posso rastrear o que está errado no meu site de produção?
Como posso remover as consultas duplicadas, já que elas pertencem ao sistema? Preciso executar sudo -u postgres psql discourse...? Parece assustador.

riking · Dezembro 8, 2019, 1:33am

Para tornar o backup restaurável, você provavelmente pode excluir as linhas duplicadas do arquivo SQL de backup.

É possível que o banco de dados de desenvolvimento esteja sem esse índice por algum motivo?

Tópico		Respostas	Visualizações
Can't restore due to corrupt indexes (with some clues on how to deal with corrupt indexes) Self-hosting	12	4802	6 de Janeiro de 2020
Error when restore DB backup Self-hosting	25	1951	23 de Agosto de 2018
Restore problem: relation "theme_fields" does not exist Self-hosting	10	2884	5 de Junho de 2020
Problem with restore Discourse from backup (3.4, quite large DB) Support	17	374	14 de Janeiro de 2025
Error Restoring Backup on Migration Bug	40	4962	14 de Janeiro de 2020

id	plugin_name	key
1138	discourse-data-explorer	q:-1
1136	discourse-data-explorer	q:-10
813	discourse-data-explorer	q:10
1142	discourse-data-explorer	q:-11
1397	discourse-data-explorer	q:-11
825	discourse-data-explorer	q:11
889	discourse-data-explorer	q:13
1004	discourse-data-explorer	q:14
1005	discourse-data-explorer	q:15
1043	discourse-data-explorer	q:17
1044	discourse-data-explorer	q:18
514	discourse-data-explorer	q:-2
1249	discourse-data-explorer	q:-2
764	discourse-data-explorer	q:2
1053	discourse-data-explorer	q:21
1066	discourse-data-explorer	q:22
1082	discourse-data-explorer	q:23
1097	discourse-data-explorer	q:24
1131	discourse-data-explorer	q:26
1132	discourse-data-explorer	q:27
1134	discourse-data-explorer	q:28
1135	discourse-data-explorer	q:29
775	discourse-data-explorer	q:3
1137	discourse-data-explorer	q:30
1140	discourse-data-explorer	q:31
1141	discourse-data-explorer	q:32
1143	discourse-data-explorer	q:33
1149	discourse-data-explorer	q:34
1155	discourse-data-explorer	q:35
1156	discourse-data-explorer	q:36
1157	discourse-data-explorer	q:37
1158	discourse-data-explorer	q:38
1161	discourse-data-explorer	q:39
513	discourse-data-explorer	q:-4
777	discourse-data-explorer	q:4
1211	discourse-data-explorer	q:40
1215	discourse-data-explorer	q:41
1223	discourse-data-explorer	q:42
1224	discourse-data-explorer	q:43
1225	discourse-data-explorer	q:44
1226	discourse-data-explorer	q:45
1269	discourse-data-explorer	q:46
1272	discourse-data-explorer	q:47
1273	discourse-data-explorer	q:48
1274	discourse-data-explorer	q:49
1279	discourse-data-explorer	q:50
1281	discourse-data-explorer	q:51
1282	discourse-data-explorer	q:52
1301	discourse-data-explorer	q:53
1349	discourse-data-explorer	q:54
1369	discourse-data-explorer	q:55
1373	discourse-data-explorer	q:56
1384	discourse-data-explorer	q:57
1387	discourse-data-explorer	q:58
1396	discourse-data-explorer	q:59
1222	discourse-data-explorer	q:-6
1348	discourse-data-explorer	q:-6
781	discourse-data-explorer	q:6
763	discourse-data-explorer	q:-7
782	discourse-data-explorer	q:7
515	discourse-data-explorer	q:-8
791	discourse-data-explorer	q:8
1139	discourse-data-explorer	q:-9
798	discourse-data-explorer	q:9
507	discourse-data-explorer	q:_id

Restauração falhando: possível problema no Data Explorer

Tópicos relacionados