Discourse がロックアップし、CPU の待機状態(top の wa:)が 90% 以上になっています。この状態を引き起こす一般的な原因として、他の管理者が経験したことはありますか?私は AWS 上で Debian を実行しています。
データベースはRDSにありますか、それともWebと同じコンテナ内ですか?
マシンディスクはEBSネットワークマウントですか?許可されたIOPSを使い果たしていないか確認しましたか?
データベースは同じ Docker コンテナ内にあります。この環境を構築してくれた人が、8GiB と 32GiB の 2 つの EBS ボリュームを作成しました。ボリュームタイプは GP2 で、両方とも 100 IOPS です。この IOPS 数で十分でしょうか?https://aws.amazon.com/premiumsupport/knowledge-center/optimize-ebs-provisioned-iops/ という記事を読んで学んでいますが、方向性を示すヒントがあれば大変助かります。
編集:上記の記事で言及されている「キューの長さ」が、先月 19 日の障害時に非常に長くなっていたことが分かりました(以下のチャート参照)。問題は、何がその原因となっているのかを特定し、どうすればそれを防ぐことができるかという点です。
