VanillaからDiscourseへの大規模データインポート（速度低下）

Christian_Suntay · 2020 年 11 月 5 日午後 12:44

Discourseからのデータダンプが26GBあります。
ユーザー：130万人
トピック：300万件
投稿：2100万件

問題は、初期は毎分50万件の速度でインポートできていたものの、数分後には毎分2千件まで速度が低下してしまうことです。

pfaffman · 2020 年 11 月 5 日午後 12:56

大量のRAMが必要です。一括インポーターを検討するかもしれませんが、バニラ用のものは存在しないと思います。

Christian_Suntay · 2020 年 11 月 5 日午後 1:04

こんにちは、Jay。AWS で c5.4xlarge インスタンスを使用していますが、最初は 500k/分だったものが、数分後に速度が低下します。

riking · 2020 年 11 月 5 日午後 1:05

インポートスクリプトは再開可能ですが、残念ながらこれはインポートスクリプトにおいて一般的なことです。

Christian_Suntay · 2020 年 11 月 5 日午後 2:05

はい、再起動すると既にインポートされたデータはスキップされますが、同じ処理が時間とともに遅くなってしまいます

Christian_Suntay · 2020 年 11 月 5 日午後 2:16

ご確認いただきありがとうございます。データが3100万件に達し、このペースで減少し続けるなら、完了までに1ヶ月ほどかかるでしょう。これを改善するご提案はありますか？それとも、これが現状の仕様でしょうか？

gerhard · 2020 年 11 月 5 日午後 2:34

クラウド環境では、高速なシングルコア性能を持つ CPU を見つけるのはかなり困難です。

あるいは、一括インポートスクリプトを試してみてください。Importers for large forums

Vanilla 用のスクリプトもあります：discourse/script/bulk_import/vanilla.rb at main · discourse/discourse · GitHub

Christian_Suntay · 2020 年 11 月 5 日午後 2:49

AWS の c5.4xlarge を使用しています。
vCPU - 16、メモリ（GiB）- 32
これで十分でしょうか、それともアップグレードすべきでしょうか？

もちろん、そのバッチインポートスクリプトを試してみます。ありがとうございます！

gerhard · 2020 年 11 月 5 日午後 2:53

可能な限り通常のインポートスクリプトを高速で実行したい場合は、PassMark CPU Benchmarks - Single Thread Performance のトップにある CPU が必要です。AWS や他のクラウドプロバイダーで vCPU を使用した場合にどのような性能が得られるかは、私にはわかりません。

pfaffman · 2020 年 11 月 5 日午後 3:32

一括インポート機能を使いたいようですね。

Christian_Suntay · 2020 年 11 月 5 日午後 6:46

バッチインポートを試すたびに、そこで停止してしまいます。トレースバックがカテゴリ ID で止まるため、-1 を 0 に変更してみました。

@last_imported_category_id = imported_category_ids.max || -1
を
@last_imported_category_id = imported_category_ids.max || 0
に変更しました。

ID が -1 のカテゴリを削除して再度試してみましたが、やはりうまくいきませんでした。

riking · 2020 年 11 月 12 日午前 3:34

追加のサポートを雇うことができる場合は、https://www.literatecomputing.com/ の @pfaffman までご連絡ください。

トピック		返信	表示
Migrating a large forum Support	11	1666	2021 年 10 月 14 日
Importers for large forums Announcements	50	9621	2023 年 12 月 1 日
Import from vbulletin to discourse forums Development	5	2263	2018 年 8 月 28 日
Migrate a Vanilla forum to Discourse Sysadmins how-to	44	16318	2023 年 1 月 30 日
Bypass UploadCreator for Import Support	8	475	2021 年 1 月 9 日

VanillaからDiscourseへの大規模データインポート（速度低下）

関連トピック