Incompatibilidade do certificado do hostname do e-mail causando sobrecarga na fila do sidekiq, instabilidade severa do site

Bom trabalho, @RGJ!

Enquanto aguardamos uma correção, em uma nota paralela, seria bom se este problema não causasse a cascata de problemas que experimentei, que quase derrubaram meu fórum completamente. Especificamente:

  • As falhas de e-mail parecem ser retentadas com extrema rapidez, o que faz com que a fila do sidekiq exploda em tamanho e ~100% de uso de CPU causado por essas tarefas.
  • Além disso, algo (quedas ou reinícios) estava fazendo com que o Redis gravasse enormes arquivos temporários, que presumo conter o estado da fila do sidekiq. Embora fossem seguros para remover, eles rapidamente preencheram o disco, o que causou mais quedas, e assim por diante. Eu tinha algum espaço em disco que pude liberar para reiniciar o fórum e descobrir o que estava acontecendo, mas isso pode não ser verdade para todos. (Também é um tanto difícil confirmar que, neste caso, os arquivos temporários do Redis são de fato seguros para excluir.)

Minha suposição é que a solução mais simples aqui é diminuir a velocidade da retentativa em trabalhos de e-mail com falha — ou pelo menos naqueles que não têm restrições de tempo, como redefinições de senha. O que parece apropriado, dado que problemas de e-mail provavelmente não se resolverão rapidamente, e a maioria/todos os remetentes farão suas próprias retentativas assim que receberem uma mensagem.

8 curtidas