我们最近在 Discourse 中遇到了一个问题,由于(很可能是)电子邮件服务身份验证问题,收到的电子邮件未能送达。不幸的是,这个问题持续了很长时间(可能几周?),而无人知晓,因为那些通过电子邮件发帖和回复论坛帖子的用户通常不在论坛上查看他们的电子邮件是否真的被发布了(而且,在我们的例子中,出站电子邮件仍然工作正常)。实际上,我们有一部分用户被完全静默了,而没有人注意到——这非常非常糟糕。![]()
这里的元问题是:我之所以发现这个问题,是因为一位用户碰巧注意到他们的一篇帖子丢失了,然后我花了 30 分钟查看日志才找到罪魁祸首——这个周转时间显然是不可接受的。是否存在我不知道的机制,可以立即向管理员标记此问题?我期望像电子邮件这样的核心服务反复出现故障(尤其是像身份验证故障这样的非临时性故障……)会在某个地方引发一个可见的标志,以便进行调查?还有其他的好策略来关注这类问题吗?