Discourse で受信メールが届かない問題が発生しました。原因はおそらく、当社のメールサービスにおける認証の問題だと思われます。残念ながら、この問題は(おそらく数週間?)かなりの期間続いていましたが、誰も気づきませんでした。なぜなら、メール経由でフォーラム投稿や返信を行っているユーザーは、通常、自分のメールが実際に投稿されているかどうかを確認するためにフォーラムにアクセスしているわけではないからです(そして、当社の場合は、送信メールは問題なく機能していました)。実質的に、誰も気づかないうちに、多くのユーザーが完全に沈黙させられていたのです。これは非常にまずい状況です。![]()
ここでのメタ的な問題は、ユーザーが投稿した投稿が見当たらないことに偶然気づいた一人のユーザーのおかげで、この問題を発見したということです。私はログを30分間調べ、原因を突き止めました。この対応時間は明らかに許容できるものではありません。管理者にこの問題をすぐに知らせるような、私が知らないメカニズムはありますか?メールのようなコアサービスでの繰り返し発生する障害(特に認証障害のような一時的でない障害)は、調査できるように、どこかに目に見えるフラグを立てるべきだと期待しますか?このような問題の監視に役立つ他の良い戦略はありますか?