У нас есть дамп данных из Discourse объёмом 26 ГБ:
1,3 миллиона пользователей
3 миллиона тем
21 миллион сообщений
Наша проблема заключается в том, что мы импортируем данные со скоростью 500 тысяч в минуту, но через несколько минут скорость падает до 2 тысяч в минуту.
Спасибо за подтверждение. Если скорость продолжит снижаться, на обработку 31 миллиона записей уйдёт примерно месяц. Есть какие-то предложения, как это улучшить? Или так и задумано?
Если вы хотите запустить обычный скрипт импорта как можно быстрее, вам понадобится процессор из верхней части списка на PassMark CPU Benchmarks - Single Thread Performance. Не знаю, какие результаты показывают vCPU на AWS или у любого другого облачного провайдера.
Каждый раз, когда я пытаюсь выполнить массовый импорт, процесс останавливается именно на этом месте. Так как трассировка стека обрывается на идентификаторах категорий, я попробовал заменить -1 на 0: