Desajuste del certificado del nombre de host del correo electrónico que causa sobrecarga de la cola de sidekiq, inestabilidad grave del sitio

¡Buen trabajo @RGJ!

Mientras esperamos una solución, y aparte, sería bueno que este problema no causara la cascada de problemas que experimenté, lo que casi derribó mi foro por completo. Específicamente:

  • Los fallos de correo electrónico parecen reintentarse muy rápidamente, lo que hace que la cola de sidekiq explote en tamaño y un uso de CPU del ~100% causado por estas tareas.
  • Además, algo (ya sean fallos o reinicios) estaba haciendo que Redis escribiera enormes archivos temporales, supongo que conteniendo el estado de la cola de sidekiq. Si bien eran seguros de eliminar, rápidamente llenaron el disco, lo que causó más fallos, y así sucesivamente. Tuve algo de espacio en disco adicional que pude liberar para poder reiniciar el foro y averiguar qué estaba pasando, pero esto puede no ser cierto para todos. (También es algo difícil de confirmar que, en este caso, los archivos temporales de Redis son seguros de eliminar).

Mi suposición es que la solución más simple aquí es ralentizar el reintento de los trabajos de correo electrónico fallidos, o al menos de aquellos que no tienen restricciones de tiempo como los restablecimientos de contraseña. Lo que parece apropiado dado que es poco probable que los problemas de correo electrónico se resuelvan rápidamente, y la mayoría / todos los remitentes harán sus propios reintentos una vez que reciban un mensaje.

8 Me gusta