Парсинг/импорт частей очень большого JSON-экспорта с другого форума

У нас есть форум, который мы только что мигрировали, с большим количеством обсуждений (к сожалению, не всех — около 500 из тысяч), которые необходимо заархивировать и сделать доступными на протяжении всего жизненного цикла проекта. Он переезжает с cpmmonwealth.im — довольно похожей платформы.

У нас есть полная история, экспортированная через их API — три довольно больших JSON-файла (от 3 до 16 МБ) с данными о сообществах, темах, ветках, комментариях и реакциях. (Два из них мне не нужны, это небольшие файлы.)

На самом деле не так важно, будут ли они импортированы в их исходном формате: ветка → комментарий → комментарий и т. д. Можно просто объединить каждую ветку с комментариями в одно сообщение в стиле транскрипта. Я буду добавлять их как «новые темы» в разделе «архив» и сразу же блокировать их.

По сути, я просто не знаю, с чего начать. Я могу разобраться с некоторыми возможностями утилиты ‘jq’, и я загрузил один из JSON-файлов в какое-то веб-приложение, но мой компьютер почти перестал отвечать.

Один из сотрудников поддержки здесь упомянул какой-то скрипт для выгрузки JSON в базу данных SQL или что-то в этом роде? Я не очень хорошо знаком со всем этим, но, вероятно, смогу быстро разобраться, мне просто нужно направление, с чего начать.

Смотрите пример по адресу discourse/script/import_scripts/drupal_json.rb at main · discourse/discourse · GitHub и найдите там другие скрипты для обработки JSON.

Я только что создал здесь свой собственный инструмент, хотя теперь мне всё ещё нужно перевести это в формат, который может обработать API Discourse.

https://github.com/osmo-support-lab/discourse-migration

JSON-скрипты просто берут JSON, помещают его в базу данных SQL и читают оттуда.

эх, я очень-очень мало знаю обо всём этом и ещё меньше о SQL, поэтому я решил пойти именно туда, ха-ха.. в любом случае было довольно весело.