Ещё одна загадка дискурса

fuse · 13.Октябрь.2022 01:50:29

В 21:09 по восточному времени (ET) я получил предупреждение от AWS CloudWatch, а также получил сообщения от друзей: «Эй, Discourse не работает?»

Я не смог подключиться по SSH к экземпляру AWS Lightsail, и все метрики зависли/перестали обновляться.

В конце концов я сдался и остановил/перезапустил экземпляр Lightsail.

Сервис восстановился.

После восстановления я проверил логи, чтобы понять, что произошло.

Я запускаю Discourse в виде одного экземпляра, поэтому ошибка в 21:05 относительно сетевого подключения Redis ставит меня в тупик.

Я не могу понять, что именно произошло, кроме как «что-то» зависло/не сработало по «какой-то причине».

Буду признателен любому, кто сможет объяснить ситуацию или дать подсказки.

Спасибо!

MarcP · 13.Октябрь.2022 02:08:55

Какие характеристики у сервера? Похоже, что ему не хватает ресурсов? Скорее всего, это процессор. Возможно, в это время выполняется какая-то ежедневная задача?

fuse · 13.Октябрь.2022 02:18:52

Это экземпляр Lightsail с 1 vCPU, 1 ГБ ОЗУ и SSD-диском на 40 ГБ.

Объём хранилища использован примерно на 60%, но после очистки этот показатель значительно снижается.

AWS показывает, что у меня закончились кредиты на всплеск производительности CPU, что странно, поскольку другие метрики этому не соответствуют.

Сообщество довольно небольшое (20–30 активных участников), поэтому меня удивит, если на самом деле существуют реальные ограничения по CPU или ОЗУ.

Ежедневных задач, о которых я знаю, нет, за исключением тех, которые Discourse может планировать по умолчанию.

Stephen · 13.Октябрь.2022 02:33:14

1 ГБ с подкачкой — это абсолютный минимум для запуска Discourse.

Как давно работает этот экземпляр? Каков размер базы данных?

fuse · 13.Октябрь.2022 10:47:58

Я проверю размер базы данных, не ожидаю, что он будет большим (резервные копии составляют около 57 МБ).

Время работы экземпляра составляет чуть менее десяти часов с момента восстановления, так как для этого потребовалось остановить и перезапустить виртуальный сервер — я не мог получить доступ к оболочке или консоли.

Этот тип экземпляра работает стабильно с момента его создания (по моим оценкам, в феврале 2021 года).

Falco · 13.Октябрь.2022 13:59:09

Звучит так, будто это происходит, когда AWS переносит вашу виртуальную машину с одного хоста на другой, и из-за этого она оказывается в странном состоянии. Обычно перезагрузка решает проблему.

fuse · 13.Октябрь.2022 16:29:51

Общий размер базы данных составляет 423 МБ.

Самые большие таблицы:
Posts — 66 МБ
Post_timings — 60 МБ

fuse · 16.Октябрь.2022 16:40:49

Произошел второй подобный сбой при «высокой нагрузке».

Предполагаю, что это связано с конкуренцией за ресурсы.

Кто-нибудь пробовал использовать снимок Lightsail для создания снимка экземпляра и его восстановления на экземпляре большего размера в качестве метода обновления?

darkpixlz · 16.Октябрь.2022 17:06:42

Вы можете попробовать перезагрузить экземпляр AWS, это может решить множество проблем.

fuse · 16.Октябрь.2022 17:10:02

Я перенёс инстанс с помощью снимка Lightsail с конфигурации 1 vCPU, 1 ГБ ОЗУ и 40 ГБ SSD на конфигурацию 2 vCPU, 4 ГБ ОЗУ и 80 ГБ SSD.

Помимо необходимости отсоединить и снова присоединить публичный IP-адрес, что было довольно просто, меня беспокоит вопрос: «что я мог упустить»?

Есть ли что-то (резервные копии, почта, конфигурация бакета S3 и т. д.), что мне следует проверить, или мне нужно заново выполнить начальные параметры установки, чтобы воспользоваться преимуществами обновлённых ресурсов?

fuse · 16.Октябрь.2022 18:49:48

Исходя из этой ссылки, я думаю, можно увеличить db_shared_buffer хотя бы до 1 ГБ. В текущем файле app.yml указано 128 МБ, а также упоминается автоматическая настройка при загрузке.

Stephen · 16.Октябрь.2022 19:01:29

1 ГБ вполне достаточно для системы с 4 ГБ ОЗУ. Убедитесь также, что параметр unicorn_workers установлен в 4.

Обычная рекомендация при переезде между серверами — снова запустить discourse-setup, который автоматически решит все вышеперечисленные вопросы.

github.com/discourse/discourse_docker

discourse-setup

master


      
          }
          
          
          ##
          ## If we have lots of RAM or lots of CPUs, bump up the defaults to scale better
          ##
          scale_ram_and_cpu() {
          
            local changelog=/tmp/changelog.$PPID
            # grab info about total system ram and physical (NOT LOGICAL!) CPU cores
            avail_gb=0
            avail_cores=0
            os_type=$(check_OS)
            if [ "$os_type" == "Darwin" ]; then
              avail_gb=$(check_osx_memory)
              avail_cores=`sysctl hw.ncpu | awk '/hw.ncpu:/ {print $2}'`
            else
              avail_gb=$(check_linux_memory)
              avail_cores=`lscpu --parse=core | egrep -v ^# | sort -u | wc -l`
            fi
            echo "Found ${avail_gb}GB of memory and $avail_cores physical CPU cores"

fuse · 16.Октябрь.2022 20:36:10

Спасибо. Теперь я погружаюсь в кроличью нору Prometheus.

Отличные материалы.

Тема		Ответов	Просм.
Problem installing Discourse on AWS EC2 instance Self-hosting server-resources	3	524	21.11.2023
Connection timed out while connecting to upstream on AWS Self-hosting hosting	12	3904	28.06.2016
Suddenly my server got crashed out of nowhere Self-hosting	8	484	15.05.2023
Discourse unavailable with high load average Support	19	2555	05.09.2018
Due to extreme load, this is temporarily being shown to everyone... when it's not really the case Self-hosting server-resources	19	1819	21.07.2023

Ещё одна загадка дискурса

Связанные темы