DiscourseにHTMLをインポートする

こんにちは。

Google Yahooがサービス終了した際、既存グループの管理者がすべてのメッセージをHTML形式でエクスポートしました。その後、それらのHTMLファイルをすべてGroups.ioにアップロードし、それが移行プロセスとなりました。

現在、HtmlDigest001のようなタイトルのHTMLファイルが数百個あり、各ファイルには数百の異なる件名が含まれ、各件名には数十件のメッセージがあります。

Pythonスクリプトを使って、件名と投稿日で整理されたテキストを個別のWord文書に抽出しようとしましたが、成功しませんでした。

DiscourseがこれらのHTMLファイルをインポートし、それらを個別のメッセージに変換できるかどうか、またはこのタスクを実行できるツールがあるかどうか考えています。

お時間とご協力ありがとうございます。

よろしくお願いいたします。

不可能ではありません。それらを解析し、たとえばデータベースにプッシュする何かを作成する必要があります。JSONまたはCSVインポーターのいずれかを参照できます。nokogiri gemが役立つでしょう。

「いいね!」 2