Tenemos un volcado de datos de Discourse de 26 GB:
1,3 millones de usuarios
3 millones de temas
21 millones de publicaciones
Nuestro problema es que estamos importando a una velocidad de 500.000 por minuto, pero después de unos minutos la velocidad disminuye hasta 2.000 por minuto.
Gracias por confirmarlo. Si la tendencia sigue bajando, los 31 millones de datos tardarán alrededor de un mes. ¿Tienes alguna sugerencia para mejorar esto? ¿O es simplemente así como funciona?
Necesitarás una CPU de las primeras posiciones de PassMark CPU Benchmarks - Single Thread Performance si quieres ejecutar el script de importación regular lo más rápido posible. No tengo idea de lo que obtienes en AWS o cualquier otro proveedor de nube con vCPUs.
Cada vez que intento la importación masiva, se detiene allí. Dado que el rastreo de errores se detiene en los IDs de categoría, intenté cambiar el -1 por un 0: