Recientemente nos encontramos con un problema en nuestro Discourse donde los correos electrónicos entrantes no se estaban recibiendo debido a (probablemente) un problema de autenticación con nuestro servicio de correo electrónico. Desafortunadamente, esto continuó durante un período prolongado (¿posiblemente semanas?) sin que nadie se diera cuenta, ya que los usuarios que publican y responden a las publicaciones del foro por correo electrónico generalmente no están en el foro para VER si sus correos electrónicos se publican realmente (y, en nuestro caso, los correos electrónicos salientes todavía funcionaban bien). Efectivamente, teníamos un grupo de usuarios que estaban totalmente silenciados sin que nadie se diera cuenta, esto es muy, muy malo. ![]()
El meta-problema aquí es: Descubrí el problema porque un usuario notó que faltaba una de sus publicaciones, y revisé los registros durante 30 minutos hasta que encontré al culpable: el tiempo de respuesta aquí obviamente no es aceptable. ¿Existe algún mecanismo que no conozca que hubiera señalado este problema de inmediato a los administradores? ¿Esperaría que fallos repetidos en un servicio central como el correo electrónico (especialmente fallos no temporales como un fallo de autenticación…) generaran una señal de alerta visible EN ALGÚN LUGAR para que pudiera ser investigado? ¿Existen otras buenas estrategias para estar al tanto de este tipo de problemas?