Импорт HTML в Discourse

Добрый день,

Когда Google Groups был закрыт, администраторы существующей группы экспортировали все сообщения в формат HTML. Затем они загрузили все HTML-файлы в Groups.io, и это стало их процессом миграции.

Сегодня у нас есть несколько сотен таких HTML-файлов с названиями вроде HtmlDigest001, каждый из которых содержит сотни различных тем, а каждая тема — десятки сообщений.

Я уже пытался с помощью скриптов на Python извлечь текст, сгруппированный по темам и датам публикации, в отдельные документы Word, но без успеха.

Теперь я думаю, сможет ли Discourse импортировать эти HTML-файлы и каким-то образом преобразовать их в отдельные сообщения. Или, возможно, существует инструмент, способный выполнить эту задачу.

Спасибо за ваше время и помощь.

С уважением

В принципе, всё возможно. Вам нужно будет написать скрипт, который будет парсить эти файлы и, например, загружать их в базу данных. Посмотрите на примеры импортеров для JSON или CSV. В этом может помочь gem nokogiri.