Abbiamo un dump di dati da Discourse di 26 GB:
1,3 milioni di utenti
3 milioni di argomenti
21 milioni di post
Il nostro problema è che stiamo importando a una velocità di 500k/min, ma dopo pochi minuti questa scende fino a 2k/min.
Abbiamo un dump di dati da Discourse di 26 GB:
1,3 milioni di utenti
3 milioni di argomenti
21 milioni di post
Il nostro problema è che stiamo importando a una velocità di 500k/min, ma dopo pochi minuti questa scende fino a 2k/min.
Avrai bisogno di molta RAM. Potresti dare un’occhiata agli importatori in blocco, ma non credo che ne esista uno per la versione vanilla.
Ciao Jay. Stiamo utilizzando un’istanza c5.4xlarge con AWS e inizialmente la velocità è di 500k/min, ma dopo pochi minuti rallenta.
Lo script di importazione è riavviabile, ma purtroppo questo è semplicemente normale per gli script di importazione.
Sì, quando riavvio salta semplicemente i dati già importati, ma lo stesso processo rallenta nel tempo ![]()
Grazie per la conferma.
Con un totale di 31 milioni di dati, ci vorrà circa un mese se il processo continua a rallentare. Hai qualche suggerimento per migliorare la situazione? O è semplicemente così che funziona?
È necessaria una CPU con elevata velocità single-core, che è piuttosto difficile da trovare nel cloud.
In alternativa, prova lo script di importazione massiva. Importers for large forums
Ne esiste uno per Vanilla: discourse/script/bulk_import/vanilla.rb at main · discourse/discourse · GitHub
Utilizziamo c5.4xlarge da AWS
vCPU - 16 Memoria (GiB) - 32
È sufficiente o dovremmo effettuare un upgrade?
Certamente, proverò quello script di importazione massiva. Grazie!
Se vuoi eseguire lo script di importazione standard alla massima velocità, avrai bisogno di una CPU che si trovi in cima alla classifica di PassMark CPU Benchmarks - Single Thread Performance. Non ho idea di cosa si possa ottenere su AWS o su qualsiasi altro provider cloud con le vCPU. ![]()
Vuoi utilizzare l’importatore batch.
Ogni volta che provo l’importazione di massa, si ferma lì. Dato che lo stack trace si ferma agli ID delle categorie, ho provato a cambiare -1 in 0
@last_imported_category_id = imported_category_ids.max || -1
in
@last_imported_category_id = imported_category_ids.max || 0
Ho anche provato a eliminare la categoria con ID -1 e poi riprovare. Nessun risultato.
Se puoi assumere ulteriore personale, contatta @pfaffman su https://www.literatecomputing.com/ .