Мы отключили плагин примерно на 24 часа, а затем снова включили его на 24 часа.
Ниже я привожу заметки от нашего другого администратора.
Плагин вызывает замедление планирования задач.
Чем больше задач в очереди, тем сложнее процессору успевать за ними.
В результате сервер видит большой трафик, и всё кажется нормальным какое-то время, пока задачи не начнут накапливаться.
В конце концов процессор перестаёт справляться, и его загрузка резко колеблется вверх и вниз по мере выполнения накопленных задач.
Именно поэтому ранее мы наблюдали более 3000 накопленных задач.
В обычных условиях никогда не бывает больше 5 задач, но почти всегда их ноль, поскольку задачи не должны накапливаться — они должны обрабатываться немедленно.
Прикреплённое изображение показывает текущее накопление задач. Сейчас их количество колеблется в районе 30–35.
Все задачи новые и появились после последнего сообщения в sidecar.
Пока я не могу точно сказать почему, но это происходит только тогда, когда плагин включён.
Использование ресурсов процессора за последний час
Последние 24 часа, с указанием примерного момента включения плагина (см. восходящий тренд после пика)
Кажется, что для выявления паттерна требуется более 24 часов, но плагин вызывает общее использование ресурсов на уровне 80–90+% большую часть времени.
Как только мы его отключим, в течение следующих 24 часов мы заметим, что средняя загрузка сервера составит 60–75%, и задачи перестанут накапливаться.
Кроме того, когда мы этого хотим, я изменил файл app.yml, установив 16 рабочих процессов unicorn. Когда мы захотим провести пересборку, я думаю, следует отключить плагин и использовать 16 рабочих процессов unicorn. Мы будем наблюдать за производительностью сервера в течение этого периода и скорректируем значение количества рабочих процессов до оптимального.
За последние 7 дней:
красный = включён
синий = выключен
После повторного включения плагина загрузка процессора снова резко возрастает. Я меньше уверен, что часть с задачами является основной проблемой. Я заметил, что количество задач увеличивается вместе с ростом числа рабочих процессов unicorn. Думаю, эти показатели не связаны.
Тем не менее я всё ещё вижу проблему с тем, что плагин занимает ресурсы.
Пока я не на 100% уверен, но я очень уверен, что плагин является проблемой.
плагин + 16 рабочих процессов: сервер зависает
16 рабочих процессов без плагина — работает хорошо
плагин + 8 рабочих процессов — работает медленно, но функционирует
График после отключения плагина