もう一つのDiscourseの謎

fuse · 2022 年 10 月 13 日午前 1:50

午後9時9分ETにAWS CloudWatchアラートを受信しました。友人からも「Discourseはダウンしていますか？」というテキストメッセージが届きました。

AWS LightsailインスタンスにSSHで接続できず、すべてのメトリクスが停止/報告されていません。

最終的に諦めてLightsailインスタンスを停止/再起動しました。
サービスは復旧しました。

サービス復旧後にログを確認し、原因を特定しようとしました。

単一インスタンスでDiscourseを実行しているため、午後9時5分に発生したRedisネットワーク接続に関するエラーには困惑しています。

「何らかの理由で」「何かが」ハング/失敗したという以外に、何が起こったのかを特定できません。

説明できる方、または手がかりを残していただける方がいれば幸いです。

よろしくお願いします！

MarcP · 2022 年 10 月 13 日午前 2:08

サーバーのスペックは何ですか？リソースが不足しているようですが？おそらくCPUでしょう。その時間帯に何らかの日次タスクが実行されているのでしょうか？

fuse · 2022 年 10 月 13 日午前 2:18

1 vCPU、1GB RAM、40 GB SSD の Lightsail インスタンスです。

ストレージは約 60% 消費されており、クリーンアップを行うとかなりの量が減少します。

AWS ではバースト可能 CPU クレジットが枯渇していると表示されますが、他のメトリクスがそれを裏付けていないため、これは奇妙です。

アクティブな参加者は 20〜30 人程度の小規模なコミュニティなので、CPU または RAM の制約があるとは考えにくいです。

Discourse がデフォルトでスケジュールする可能性のあるもの以外に、私が把握している定期的なタスクはありません。

Stephen · 2022 年 10 月 13 日午前 2:33

1GBとスワップが、Discourseを実行するための絶対的な最小値です。

このインスタンスはどのくらい稼働していますか？データベースのサイズはどのくらいですか？

fuse · 2022 年 10 月 13 日午前 10:47

DBサイズを確認します。それほど大きくないはずです（バックアップはすべて約57MBです）。

インスタンスの稼働時間は、リカバリのために仮想サーバーの停止と再起動が必要だったため、現在10時間弱です。シェルやコンソール接続を取得できませんでした。

このインスタンスタイプでは、構築以来（推測ですが2021年2月）問題なく稼働しています。

Falco · 2022 年 10 月 13 日午後 1:59

これは、AWS が VM を別のホストに移動した際に、そのせいで奇妙な状態のままになるのと似ています。通常は再起動で解決します。

fuse · 2022 年 10 月 13 日午後 4:29

データベース全体のサイズは423MBです。

最大のテーブルは
Posts 66MB
Post_timings 60MB

fuse · 2022 年 10 月 16 日午後 4:40

2度目の同様の「高負荷」障害が発生しました。

リソース競合が原因だと推測します。

Lightsailのスナップショットを使用してインスタンスのスナップショットを作成し、より大きなインスタンスに復元してアップグレードする方法を試した人はいますか？

darkpixlz · 2022 年 10 月 16 日午後 5:06

AWSインスタンスを再起動してみてください。多くの問題が解決する可能性があります。

fuse · 2022 年 10 月 16 日午後 5:10

Lightsail スナップショットを使用して、1 CPU、1GB RAM、40GB SSD から 2 CPU、4GB RAM、80GB SSD に移行しました。

パブリック IP のデタッチと再アタッチは問題なく完了しましたが、他に「何か見落としたことはないか」という点が懸念されます。

バックアップ、メール、S3 バケットの設定など、確認または実行すべきことはありますか？アップグレードされたリソースを活用するために、初期インストールパラメータを再実行する必要がありますか？

fuse · 2022 年 10 月 16 日午後 6:49

このリンクに基づいて、db_shared_buffer を少なくとも 1GB に引き上げることができると考えています。
現在の app.yml では 128MB となっており、ブートストラップ時に自動調整することも示されています。

Stephen · 2022 年 10 月 16 日午後 7:01

1GBは4GBシステムで問題ありません。unicorn_workersも4に更新してください。

サーバー間を移動する場合の通常の推奨事項は、discourse-setupを再実行することです。これにより、上記が自動的に処理されます。

github.com/discourse/discourse_docker

discourse-setup

master


      
          }
          
          
          ##
          ## If we have lots of RAM or lots of CPUs, bump up the defaults to scale better
          ##
          scale_ram_and_cpu() {
          
            local changelog=/tmp/changelog.$PPID
            # grab info about total system ram and physical (NOT LOGICAL!) CPU cores
            avail_gb=0
            avail_cores=0
            os_type=$(check_OS)
            if [ "$os_type" == "Darwin" ]; then
              avail_gb=$(check_osx_memory)
              avail_cores=`sysctl hw.ncpu | awk '/hw.ncpu:/ {print $2}'`
            else
              avail_gb=$(check_linux_memory)
              avail_cores=`lscpu --parse=core | egrep -v ^# | sort -u | wc -l`
            fi
            echo "Found ${avail_gb}GB of memory and $avail_cores physical CPU cores"

fuse · 2022 年 10 月 16 日午後 8:36

ありがとうございます。今からPrometheusの奥深くを掘り下げていきます。

良い内容です。

トピック		返信	表示
Problem installing Discourse on AWS EC2 instance Self-hosting server-resources	4	519	2023 年 12 月 21 日
Suddenly my server got crashed out of nowhere Self-hosting	8	470	2023 年 5 月 15 日
Discourse unavailable with high load average Support	21	2528	2021 年 4 月 26 日
Due to extreme load, this is temporarily being shown to everyone... when it's not really the case Self-hosting server-resources	19	1771	2023 年 7 月 21 日
A 1-year gratis one-click hosted solution for Discourse! Self-hosting hosting	4	1854	2014 年 4 月 27 日

もう一つのDiscourseの謎

関連トピック