Импорт больших данных из Vanilla в Discourse (снижение скорости)

Christian_Suntay · 05.Ноябрь.2020 12:44:11

У нас есть дамп данных из Discourse объёмом 26 ГБ:
1,3 миллиона пользователей
3 миллиона тем
21 миллион сообщений

Наша проблема заключается в том, что мы импортируем данные со скоростью 500 тысяч в минуту, но через несколько минут скорость падает до 2 тысяч в минуту.

pfaffman · 05.Ноябрь.2020 12:56:56

Вам понадобится много оперативной памяти. Вы можете посмотреть на инструменты массовой импорта, но, насколько я знаю, для ванильной версии их нет.

Christian_Suntay · 05.Ноябрь.2020 13:04:10

Привет, Джей. Мы используем экземпляр c5.4xlarge от AWS; сначала скорость составляет 500 тыс. в минуту, но через несколько минут она замедляется.

riking · 05.Ноябрь.2020 13:05:06

Скрипт импорта можно перезапустить, но, к сожалению, это обычное дело для скриптов импорта.

Christian_Suntay · 05.Ноябрь.2020 14:05:07

Да, при перезапуске оно просто пропускает уже импортированные данные, но тот же процесс со временем замедляется

Christian_Suntay · 05.Ноябрь.2020 14:16:54

Спасибо за подтверждение. Если скорость продолжит снижаться, на обработку 31 миллиона записей уйдёт примерно месяц. Есть какие-то предложения, как это улучшить? Или так и задумано?

gerhard · 05.Ноябрь.2020 14:34:01

Вам нужен процессор с высокой скоростью работы в одном ядре, что довольно сложно найти в облаке.

Или попробуйте скрипт массового импорта. Importers for large forums

Существует скрипт для Vanilla: discourse/script/bulk_import/vanilla.rb at main · discourse/discourse · GitHub

Christian_Suntay · 05.Ноябрь.2020 14:49:49

Мы используем c5.4xlarge от AWS
vCPU — 16, память (ГБ) — 32
Хватит ли этого или стоит обновить?

Конечно, попробуем этот скрипт для массовой импорта. Спасибо!

gerhard · 05.Ноябрь.2020 14:53:16

Если вы хотите запустить обычный скрипт импорта как можно быстрее, вам понадобится процессор из верхней части списка на PassMark CPU Benchmarks - Single Thread Performance. Не знаю, какие результаты показывают vCPU на AWS или у любого другого облачного провайдера.

pfaffman · 05.Ноябрь.2020 15:32:42

Вы хотите использовать массовый импортер.

Christian_Suntay · 05.Ноябрь.2020 18:46:23

Каждый раз, когда я пытаюсь выполнить массовый импорт, процесс останавливается именно на этом месте. Так как трассировка стека обрывается на идентификаторах категорий, я попробовал заменить -1 на 0:

@last_imported_category_id = imported_category_ids.max || -1
на
@last_imported_category_id = imported_category_ids.max || 0

Я даже попытался удалить категорию с идентификатором -1 и повторить импорт, но безрезультатно.

riking · 12.Ноябрь.2020 03:34:20

Если вы можете нанять дополнительную помощь, свяжитесь с @pfaffman по адресу https://www.literatecomputing.com/ .

Тема		Ответов	Просм.
Migrating a large forum Support	10	1705	07.12.2018
Importers for large forums Announcements	49	9723	05.05.2018
Import from vbulletin to discourse forums Development	5	2282	28.08.2018
Migrate a Vanilla forum to Discourse Sysadmins how-to	44	16532	30.01.2023
Bypass UploadCreator for Import Support	8	502	09.01.2021

Импорт больших данных из Vanilla в Discourse (снижение скорости)

Связанные темы