Добрый день,
Когда Google Groups был закрыт, администраторы существующей группы экспортировали все сообщения в формат HTML. Затем они загрузили все HTML-файлы в Groups.io, и это стало их процессом миграции.
Сегодня у нас есть несколько сотен таких HTML-файлов с названиями вроде HtmlDigest001, каждый из которых содержит сотни различных тем, а каждая тема — десятки сообщений.
Я уже пытался с помощью скриптов на Python извлечь текст, сгруппированный по темам и датам публикации, в отдельные документы Word, но без успеха.
Теперь я думаю, сможет ли Discourse импортировать эти HTML-файлы и каким-то образом преобразовать их в отдельные сообщения. Или, возможно, существует инструмент, способный выполнить эту задачу.
Спасибо за ваше время и помощь.
С уважением