Análisis/importación de porciones de exportación JSON muy grande de otro foro

Tengo un foro que acabamos de migrar con muchas discusiones (desafortunadamente no todas, alrededor de 500 de los miles) que necesitan ser archivadas/accesibles durante la vida del proyecto. Proviene de cpmmonwealth.im, una plataforma bastante similar.

Tengo todo el historial exportado por su API: 3 archivos JSON bastante grandes (entre 3 y 16 MB): comunidades, temas, hilos, comentarios y reacciones. (2 de ellos no los necesito, los pequeños).
Ni siquiera importa si se importan en su formato original de Hilo > comentario > comentario, etc. Simplemente puede ser cada hilo + comentarios combinados en un solo mensaje estilo transcripción. Los agregaré como “nuevos hilos” en el tema “archivo” y los bloquearé inmediatamente de todos modos.

Básicamente, no sé por dónde empezar. Puedo entender algo de ‘jq’, y cargué uno de los json en una aplicación web, pero hizo que mi PC fuera casi inutilizable.
Uno del equipo de soporte mencionó algún script para volcar JSON en una base de datos SQL o algo así. Realmente no estoy muy familiarizado con la mayoría de esto, pero probablemente pueda aprenderlo, solo necesito alguna dirección para empezar.

Ver discourse/script/import_scripts/drupal_json.rb at main · discourse/discourse · GitHub como ejemplo y buscar allí otros scripts que procesan json.

3 Me gusta

Acabo de crear mi propia herramienta aquí, aunque ahora todavía necesito traducirla a un formato que la API de Discourse pueda manejar.

Los scripts json simplemente toman el json y lo insertan en una base de datos sql y la leen.

1 me gusta

eh, sé muy, muy poco sobre todo esto y aún menos sobre SQL, así que ahí fue donde decidí ir, jajaja… de todos modos fue algo divertido.

1 me gusta