Kernel oops / CPU travando devido ao XFS

rahim123 · Julho 23, 2023, 12:55am

Desde que migrei meu grande fórum para o Discourse este ano, tenho observado travamentos infrequentes com a VM na nuvem inacessível via SSH e um rastreamento de chamadas no console virtual. Os travamentos ocorrem aproximadamente a cada 3 a 6 semanas, sem um padrão específico. Inicialmente, eu estava executando o Discourse no Clear Linux porque era o que eu estava usando para extrair um pouco mais de desempenho do sistema durante a longa e intensiva migração do antigo fórum para o Discourse. Mas comecei a suspeitar que talvez o Clear Linux fosse menos estável devido a todas as suas otimizações de desempenho arcanas, então migrei meu Discourse para o Debian 12 Bookworm por volta do lançamento, há cerca de 6 semanas.

Infelizmente, hoje o sistema Debian teve seu primeiro travamento. Aqui está a sequência de eventos:

Jul 22 05:00:22 kernel: BUG: kernel NULL pointer dereference, address: 0000000000000002
- kernel: Oops: 0000 [#1] PREEMPT SMP NOPTI
- kernel: CPU: 3 PID: 3235204 Comm: postmaster Not tainted 6.1.0-10-amd64 #1 Debian 6.1.37-1
- kernel: Voluntary context switch within RCU read-side critical section!
- kernel: CPU: 3 PID: 3235204 Comm: postmaster Tainted: G D 6.1.0-10-amd64 #1 Debian 6.1.37-1
journalctl mostra a última entrada de log às 06:40:50. Mas o SO e o Discourse ainda continuaram rodando. A última entrada foi apenas um bate-papo padrão do agente de e-mail Dockerizado que rodo na mesma VM.
~08:30 Verifiquei que o Discourse estava funcionando normalmente.
08:46 no log de erros do Discourse: Unexpected error in Message Bus : ActiveRecord::ConnectionNotEstablished : connection to server on socket \"/var/run/postgresql/.s.PGSQL.5432\" failed: could not fork new process for connection: Cannot allocate memory
08:53 no log de erros do Discourse: Failed to process hijacked response correctly : ActiveRecord::ConnectionNotEstablished : connection to server on socket \"/var/run/postgresql/.s.PGSQL.5432\" failed: could not fork new process for connection: Cannot allocate memory
09:01 no log de erros do Discourse: Failed to handle exception in exception app middleware : ActiveRecord::StatementInvalid : PG::ObjectNotInPrerequisiteState: ERROR: lost connection to parallel worker
Última postagem no Discourse foi às 09:17.
09:22 no log de erros do Discourse: 'Track Visit' is still running after 90 seconds on db default, this process may need to be restarted!
09:22 no log de erros do Discourse: Redis::TimeoutError (Connection timed out)
Houve mais logs semelhantes do Discourse até o momento em que notei que o site estava fora do ar, por volta das 11:20.

Quando não consegui fazer login via SSH, tirei estas capturas de tela do visualizador do console virtual e reiniciei a VM à força:

Administro servidores Linux há muito tempo, e essa cadeia de eventos não faz sentido para mim. Os logs do Discourse parecem ser uma indicação bastante clara de um evento de falta de memória (out-of-memory), e o console virtual confirma que um componente do meu servidor de e-mail Dockerizado na mesma VM foi atingido pelo OOM killer. Mas não há registro dessa ação OOM no journalctl, que aparentemente parou de funcionar bem antes que os outros sistemas começassem a falhar. O evento aparentemente primeiro às 05:00:22 menciona o processo postmaster (do PostgreSQL no contêiner do aplicativo Discourse) várias vezes, mas o banco de dados não caiu completamente até pelo menos depois das 09:17, quando houve uma postagem bem-sucedida no Discourse.

Atualmente, após rodar o dia todo, o sistema está mostrando uso normal de memória, normalmente é mais ou menos onde ele fica:

#> free -m
              total        used        free      shared  buff/cache   available
Mem:           7751        4965         129        1832        4773        2785
Swap:          3875        2879         996

A única coisa um pouco incomum na minha configuração é que o espaço de swap é na verdade via Zram em vez de um arquivo de swap ou partição de swap. Tenho usado Zram por anos e nunca tive problemas. Também instalei a VM do zero com o ISO do instalador Debian para ter um sistema de arquivos raiz XFS em vez do EXT4 padrão que as imagens Debian do provedor de nuvem usam. O host é Hetzner, e após minha instalação inicial do Discourse no Clear Linux, criei uma VM diferente para a migração para Debian, então presumivelmente estou em um nó de hipervisor diferente e não acho que seja um problema de hardware. Então, me pergunto se isso foi apenas uma condição simples de falta de memória, ou se encontrei um caso extremo na combinação de kernel 6.1 + Zram + XFS + KVM/virtio? Agradeceria qualquer insight que você possa ter.

pfaffman · Julho 23, 2023, 1:54am

Parece que esse é o problema.

O Postgres precisa de mais memória. Você pode ajustar essas configurações de memória e talvez adicionar mais RAM, mas acho que você precisará alterar as alocações de memória do seu Postgres.

supermathie · Julho 23, 2023, 1:54am

Seu servidor Hetzner está usando RAM ECC?

Minha primeira reação é problemas de hardware… e então uma rápida pesquisa na web mostra posts sobre eles usando hardware de nível de desktop.

rahim123 · Julho 23, 2023, 2:05am

Hmm. Eu tenderia a concordar, exceto pelos erros do kernel que começaram primeiro. A VM estava rodando desde 06/jul sem um único kernel oops até esta manhã. Aqui está a saída completa daquele instante. Observe as coisas page_fault_oops, handle_mm_fault e xfs_filemap_map_pages:

Jul 22 05:00:22 myvm kernel: BUG: kernel NULL pointer dereference, address: 0000000000000002
Jul 22 05:00:22 myvm kernel: #PF: supervisor read access in kernel mode
Jul 22 05:00:22 myvm kernel: #PF: error_code(0x0000) - not-present page
Jul 22 05:00:22 myvm kernel: Oops: 0000 [#1] PREEMPT SMP NOPTI
Jul 22 05:00:22 myvm kernel: CPU: 3 PID: 3235204 Comm: postmaster Not tainted 6.1.0-10-amd64 #1  Debian 6.1.37-1
Jul 22 05:00:22 myvm kernel: Hardware name: Hetzner vServer/Standard PC (Q35 + ICH9, 2009), BIOS 20171111 11/11/2017
Jul 22 05:00:22 myvm kernel: RIP: 0010:next_uptodate_page+0x45/0x1f0
Jul 22 05:00:22 myvm kernel: Code: 0f 84 2f 01 00 00 48 81 ff 06 04 00 00 0f 84 a3 00 00 00 48 81 ff 02 04 00 00 0f 84 26 01 00 00 40 f6 c7 01 0f 85 8c 00 00 00 <48> 8b 07 a8 01 0f 85 81 00 00 00 8b 47 34 85 c0 74 7a 8d 50 01 4c
Jul 22 05:00:22 myvm kernel: RSP: 0000:ffffc1ae8274bcc0 EFLAGS: 00010246
Jul 22 05:00:22 myvm kernel: RAX: 0000000000000002 RBX: ffffc1ae8274bd18 RCX: 000000000000005e
Jul 22 05:00:22 myvm kernel: RDX: ffffc1ae8274bd18 RSI: ffffa0210863d2b0 RDI: 0000000000000002
Jul 22 05:00:22 myvm kernel: RBP: ffffa0210863d2b0 R08: 000000000000005e R09: 000055fb22bbdfff
Jul 22 05:00:22 myvm kernel: R10: 000000000000004f R11: 0000000000000000 R12: 000000000000005e
Jul 22 05:00:22 myvm kernel: R13: ffffa02194ad6980 R14: ffffa0210863d2b0 R15: ffffa02118538f60
Jul 22 05:00:22 myvm kernel: FS:  00007f423625fa40(0000) GS:ffffa0226bf80000(0000) knlGS:0000000000000000
Jul 22 05:00:22 myvm kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Jul 22 05:00:22 myvm kernel: CR2: 0000000000000002 CR3: 000000010d87e000 CR4: 0000000000350ee0
Jul 22 05:00:22 myvm kernel: Call Trace:
Jul 22 05:00:22 myvm kernel:  <TASK>
Jul 22 05:00:22 myvm kernel:  ? __die_body.cold+0x1a/0x1f
Jul 22 05:00:22 myvm kernel:  ? page_fault_oops+0xd2/0x2b0
Jul 22 05:00:22 myvm kernel:  ? finish_task_switch.isra.0+0x9b/0x300
Jul 22 05:00:22 myvm kernel:  ? exc_page_fault+0x70/0x170
Jul 22 05:00:22 myvm kernel:  ? asm_exc_page_fault+0x22/0x30
Jul 22 05:00:22 myvm kernel:  ? next_uptodate_page+0x45/0x1f0
Jul 22 05:00:22 myvm kernel:  filemap_map_pages+0xb0/0x6e0
Jul 22 05:00:22 myvm kernel:  xfs_filemap_map_pages+0x41/0x60 [xfs]
Jul 22 05:00:22 myvm kernel:  do_fault+0x1a7/0x410
Jul 22 05:00:22 myvm kernel:  __handle_mm_fault+0x660/0xfa0
Jul 22 05:00:22 myvm kernel:  handle_mm_fault+0xdb/0x2d0
Jul 22 05:00:22 myvm kernel:  do_user_addr_fault+0x19c/0x570
Jul 22 05:00:22 myvm kernel:  exc_page_fault+0x70/0x170
Jul 22 05:00:22 myvm kernel:  asm_exc_page_fault+0x22/0x30
Jul 22 05:00:22 myvm kernel: RIP: 0033:0x7f42398b32a6
Jul 22 05:00:22 myvm kernel: Code: c7 5d 41 5c e9 3b 3d 00 00 5a 31 c0 5d 41 5c c3 0f 1f 40 00 89 f1 89 f8 48 83 e1 3f 48 83 e0 3f 83 f9 30 77 3f 83 f8 30 77 3a <66> 0f 12 0f 66 0f 12 16 66 0f 16 4f 08 66 0f 16 56 08 66 0f ef c0
Jul 22 05:00:22 myvm kernel: RSP: 002b:00007ffc8a9aae68 EFLAGS: 00010287
Jul 22 05:00:22 myvm kernel: RAX: 0000000000000001 RBX: 000055fb22b39750 RCX: 0000000000000010
Jul 22 05:00:22 myvm kernel: RDX: 0000000000000000 RSI: 00007f41b1534550 RDI: 000055fb22b59d01
Jul 22 05:00:22 myvm kernel: RBP: 0000000000000009 R08: 0000000000000000 R09: 000055fb22b39750
Jul 22 05:00:22 myvm kernel: R10: 00007f41b1534550 R11: 000000000000002c R12: 00007f42398c3180
Jul 22 05:00:22 myvm kernel: R13: 0000000000000000 R14: 0000000000000009 R15: 00007f42398c3180
Jul 22 05:00:22 myvm kernel:  </TASK>
Jul 22 05:00:22 myvm kernel: Modules linked in: ipt_REJECT nf_reject_ipv4 xt_multiport xt_nat xt_tcpudp veth xt_conntrack nft_chain_nat xt_MASQUERADE nf_nat nf_conntrack_netlink nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 xfrm_user xfrm_algo xt_addrtype nft_compat nf_tables nfnetlink br_netfilter bridge stp llc lz4 lz4_compress zram zsmalloc overlay binfmt_misc intel_rapl_msr intel_rapl_common ghash_clmulni_intel sha512_ssse3 sha512_generic iTCO_wdt intel_pmc_bxt iTCO_vendor_support virtio_rng aesni_intel crypto_simd watchdog cryptd pcspkr rng_core virtio_gpu virtio_console virtio_balloon virtio_dma_buf drm_shmem_helper drm_kms_helper button evdev joydev serio_raw sg fuse dm_mod drm loop efi_pstore configfs qemu_fw_cfg ip_tables x_tables autofs4 xfs libcrc32c crc32c_generic hid_generic usbhid hid sr_mod cdrom sd_mod t10_pi ahci crc64_rocksoft crc64 crc_t10dif libahci crct10dif_generic virtio_net net_failover virtio_scsi failover libata xhci_pci scsi_mod psmouse xhci_hcd crct10dif_pclmul crct10dif_common
Jul 22 05:00:22 myvm kernel:  crc32_pclmul crc32c_intel i2c_i801 i2c_smbus lpc_ich scsi_common usbcore virtio_pci virtio_pci_legacy_dev virtio_pci_modern_dev virtio usb_common virtio_ring
Jul 22 05:00:22 myvm kernel: CR2: 0000000000000002
Jul 22 05:00:22 myvm kernel: ---[ end trace 0000000000000000 ]---
Jul 22 05:00:22 myvm kernel: RIP: 0010:next_uptodate_page+0x45/0x1f0
Jul 22 05:00:22 myvm kernel: Code: 0f 84 2f 01 00 00 48 81 ff 06 04 00 00 0f 84 a3 00 00 00 48 81 ff 02 04 00 00 0f 84 26 01 00 00 40 f6 c7 01 0f 85 8c 00 00 00 <48> 8b 07 a8 01 0f 85 81 00 00 00 8b 47 34 85 c0 74 7a 8d 50 01 4c
Jul 22 05:00:22 myvm kernel: RSP: 0000:ffffc1ae8274bcc0 EFLAGS: 00010246
Jul 22 05:00:22 myvm kernel: RAX: 0000000000000002 RBX: ffffc1ae8274bd18 RCX: 000000000000005e
Jul 22 05:00:22 myvm kernel: RDX: ffffc1ae8274bd18 RSI: ffffa0210863d2b0 RDI: 0000000000000002
Jul 22 05:00:22 myvm kernel: RBP: ffffa0210863d2b0 R08: 000000000000005e R09: 000055fb22bbdfff
Jul 22 05:00:22 myvm kernel: R10: 000000000000004f R11: 0000000000000000 R12: 000000000000005e
Jul 22 05:00:22 myvm kernel: R13: ffffa02194ad6980 R14: ffffa0210863d2b0 R15: ffffa02118538f60
Jul 22 05:00:22 myvm kernel: FS:  00007f423625fa40(0000) GS:ffffa0226bf80000(0000) knlGS:0000000000000000
Jul 22 05:00:22 myvm kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Jul 22 05:00:22 myvm kernel: CR2: 0000000000000002 CR3: 000000010d87e000 CR4: 0000000000350ee0
Jul 22 05:00:22 myvm kernel: ------------[ cut here ]------------
Jul 22 05:00:22 myvm kernel: Voluntary context switch within RCU read-side critical section!
Jul 22 05:00:22 myvm kernel: WARNING: CPU: 3 PID: 3235204 at kernel/rcu/tree_plugin.h:318 rcu_note_context_switch+0x4ee/0x690
Jul 22 05:00:22 myvm kernel: Modules linked in: ipt_REJECT nf_reject_ipv4 xt_multiport xt_nat xt_tcpudp veth xt_conntrack nft_chain_nat xt_MASQUERADE nf_nat nf_conntrack_netlink nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 xfrm_user xfrm_algo xt_addrtype nft_compat nf_tables nfnetlink br_netfilter bridge stp llc lz4 lz4_compress zram zsmalloc overlay binfmt_misc intel_rapl_msr intel_rapl_common ghash_clmulni_intel sha512_ssse3 sha512_generic iTCO_wdt intel_pmc_bxt iTCO_vendor_support virtio_rng aesni_intel crypto_simd watchdog cryptd pcspkr rng_core virtio_gpu virtio_console virtio_balloon virtio_dma_buf drm_shmem_helper drm_kms_helper button evdev joydev serio_raw sg fuse dm_mod drm loop efi_pstore configfs qemu_fw_cfg ip_tables x_tables autofs4 xfs libcrc32c crc32c_generic hid_generic usbhid hid sr_mod cdrom sd_mod t10_pi ahci crc64_rocksoft crc64 crc_t10dif libahci crct10dif_generic virtio_net net_failover virtio_scsi failover libata xhci_pci scsi_mod psmouse xhci_hcd crct10dif_pclmul crct10dif_common
Jul 22 05:00:22 myvm kernel:  crc32_pclmul crc32c_intel i2c_i801 i2c_smbus lpc_ich scsi_common usbcore virtio_pci virtio_pci_legacy_dev virtio_pci_modern_dev virtio usb_common virtio_ring
Jul 22 05:00:22 myvm kernel: CPU: 3 PID: 3235204 Comm: postmaster Tainted: G      D            6.1.0-10-amd64 #1  Debian 6.1.37-1
Jul 22 05:00:22 myvm kernel: Hardware name: Hetzner vServer/Standard PC (Q35 + ICH9, 2009), BIOS 20171111 11/11/2017
Jul 22 05:00:22 myvm kernel: RIP: 0010:rcu_note_context_switch+0x4ee/0x690
Jul 22 05:00:22 myvm kernel: Code: 49 89 3f 49 83 bc 24 98 00 00 00 00 0f 85 66 fe ff ff e9 58 fe ff ff 48 c7 c7 68 53 70 94 c6 05 d7 0e ad 01 01 e8 d2 8e f6 ff <0f> 0b e9 70 fb ff ff a9 ff ff ff 7f 0f 84 2c fc ff ff 65 48 8b 3c
Jul 22 05:00:22 myvm kernel: RSP: 0018:ffffc1ae8274bc60 EFLAGS: 00010086
Jul 22 05:00:22 myvm kernel: RAX: 0000000000000000 RBX: ffffa0226bfb1c00 RCX: 0000000000000000
Jul 22 05:00:22 myvm kernel: RDX: 0000000000000003 RSI: ffffffff9474105e RDI: 00000000ffffffff
Jul 22 05:00:22 myvm kernel: RBP: 0000000000000000 R08: 0000000000000000 R09: ffffc1ae8274bad0
Jul 22 05:00:22 myvm kernel: R10: 0000000000000003 R11: ffffffff94ed43a8 R12: 0000000000030e40
Jul 22 05:00:22 myvm kernel: R13: ffffa02175d09980 R14: ffffc1ae8274bd50 R15: 0000000000000000
Jul 22 05:00:22 myvm kernel: FS:  0000000000000000(0000) GS:ffffa0226bf80000(0000) knlGS:0000000000000000
Jul 22 05:00:22 myvm kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Jul 22 05:00:22 myvm kernel: CR2: 00007f41ef6dd70e CR3: 00000000059f6000 CR4: 0000000000350ee0
Jul 22 05:00:22 myvm kernel: Call Trace:
Jul 22 05:00:22 myvm kernel:  <TASK>
Jul 22 05:00:22 myvm kernel:  ? __warn+0x7d/0xc0
Jul 22 05:00:22 myvm kernel:  ? rcu_note_context_switch+0x4ee/0x690
Jul 22 05:00:22 myvm kernel:  ? report_bug+0xe6/0x170
Jul 22 05:00:22 myvm kernel:  ? irq_work_queue+0xa/0x50
Jul 22 05:00:22 myvm kernel:  ? handle_bug+0x41/0x70
Jul 22 05:00:22 myvm kernel:  ? exc_invalid_op+0x13/0x60
Jul 22 05:00:22 myvm kernel:  ? asm_exc_invalid_op+0x16/0x20
Jul 22 05:00:22 myvm kernel:  ? rcu_note_context_switch+0x4ee/0x690
Jul 22 05:00:22 myvm kernel:  __schedule+0xac/0xa20
Jul 22 05:00:22 myvm kernel:  schedule+0x5d/0xe0
Jul 22 05:00:22 myvm kernel:  rwsem_down_write_slowpath+0x34e/0x730
Jul 22 05:00:22 myvm kernel:  exit_mmap+0xf6/0x2f0
Jul 22 05:00:22 myvm kernel:  __mmput+0x3e/0x130
Jul 22 05:00:22 myvm kernel:  do_exit+0x2fc/0xb10
Jul 22 05:00:22 myvm kernel:  make_task_dead+0x8d/0x90
Jul 22 05:00:22 myvm kernel:  rewind_stack_and_make_dead+0x17/0x20
Jul 22 05:00:22 myvm kernel: RIP: 0033:0x7f42398b32a6
Jul 22 05:00:22 myvm kernel: Code: Unable to access opcode bytes at 0x7f42398b327c.
Jul 22 05:00:22 myvm kernel: RSP: 002b:00007ffc8a9aae68 EFLAGS: 00010287
Jul 22 05:00:22 myvm kernel: RAX: 0000000000000001 RBX: 000055fb22b39750 RCX: 0000000000000010
Jul 22 05:00:22 myvm kernel: RDX: 0000000000000000 RSI: 00007f41b1534550 RDI: 000055fb22b59d01
Jul 22 05:00:22 myvm kernel: RBP: 0000000000000009 R08: 0000000000000000 R09: 000055fb22b39750
Jul 22 05:00:22 myvm kernel: R10: 00007f41b1534550 R11: 000000000000002c R12: 00007f42398c3180
Jul 22 05:00:22 myvm kernel: R13: 0000000000000000 R14: 0000000000000009 R15: 00007f42398c3180
Jul 22 05:00:22 myvm kernel:  </TASK>
Jul 22 05:00:22 myvm kernel: ---[ end trace 0000000000000000 ]---

Eu também penso mais ou menos a mesma coisa, exceto que isso é um problema um pouco repetitivo, parece um pouco menos aleatório do que deveria. Suspeito que a Hetzner provavelmente não usa RAM ECC, é provavelmente assim que eles conseguem oferecer tanto pelo preço. Até mesmo os servidores dedicados deles aparentemente não têm/não tinham ECC. Mas, mesmo assim, a Hetzner é geralmente considerada bastante confiável em termos de infraestrutura.

RGJ · Julho 23, 2023, 5:23am

Minha suspeita é esta . Tente se livrar do Zram e do XFS (um por um) e veja o que acontece. Com o Zram como meu primeiro suspeito. O Discourse deve funcionar bem com swap regular e ext4. Essas otimizações podem ser divertidas, mas atualmente estão aumentando a complexidade da sua instalação. Assim que sua instância funcionar bem, você pode adicioná-las de volta uma por uma e ver onde as coisas quebram.

Como regra geral, tente se ater o mais próximo possível de uma instalação recomendada primeiro, depois adicione suas próprias coisas inteligentes.

rahim123 · Julho 23, 2023, 6:26am

Obrigado pela resposta. Acho que vou tentar desabilitar o Zram e adicionar um arquivo de swap de 2 GB. A alteração do sistema de arquivos exigiria a reconstrução completa da VM com uma nova instalação do Debian, e o XFS realmente não deveria causar problemas.

RGJ · Julho 23, 2023, 9:42am

Gostaria que isso fosse verdade, mas não me faça começar a falar sobre XFS. Já perdi pelo menos 200 horas da minha vida na última década com o XFS causando problemas de memória no kernel.

rahim123 · Novembro 19, 2023, 10:31pm

Bem, parece que o @RGJ estava absolutamente certo sobre o XFS. Obrigado por me indicar a direção certa. (Eu tenho usado principalmente o XFS como minha primeira escolha desde por volta de 2002, então sempre considerei que ele é extremamente estável, o que ele é como sistema de arquivos, mas aparentemente existem bugs relacionados à memória.) O mesmo problema ocorreu após desabilitar o zRAM, e então o Debian lançou uma atualização para o kernel 6.1 que inclui um patch para travamentos com XFS:

Desde que instalei o kernel 6.1.0-13, o servidor está funcionando há 42 dias sem problemas.

Tópico		Respostas	Visualizações
Discourse not using much RAM Self-hosting server-resources	30	1765	8 de Agosto de 2021
Discourse installation has been getting slower and slower and slower Self-hosting server-resources	36	1825	15 de Abril de 2023
Unusually high CPU usage Self-hosting	31	777	18 de Fevereiro de 2026
Can't install Discourse with only 10 GB disk, run out of space Self-hosting docker , server-resources	42	13301	6 de Setembro de 2017
Crashing with out of memory error when opening a topic Support server-resources	6	1061	19 de Janeiro de 2019

Kernel oops / CPU travando devido ao XFS

Tópicos relacionados