Usenet グループをインポートしますか?

ローカルの Discourse インスタンスを構築し、個人的なアーカイブとしていくつかの Usenet グループをインポートしようと考えています。双方向のミラーリングを試みるつもりはありませんし、必ずしもそれらのグループの最新のトピックを追いかける必要もないと考えていますが(もし容易に実現できるなら、その点にも興味があります)、どのように行うべきか確信が持てません。興味のあるグループの一部については Google グループを通じてメッセージをダウンロードできるようですが、完全なメールアドレスが含まれていません(これがメッセージのインポート時に問題を引き起こすかどうかはわかりません)。また、他のいくつかのグループについてはダウンロードできないようです。

この問題を考えるにつれて、私はいくつかのニュースサーバーにアカウントを持っていることに気づきました。原則として、適切なソフトウェアを使えば、すべての記事を .mbox ファイル(または一連のファイル)にダウンロードするのは比較的簡単だと思われますが、どのようなソフトウェアを使うべきか確信が持てません。何か提案はありますか?

編集:slrn(具体的には slrnpull)がダウンロードを処理できるようです。ただし、各投稿が個別のファイルになるようです。しかし、ディレクトリ構造に少し手を加える必要があるものの、.mbox インポートスクリプトでそれらを処理できると思います。

はい、それは問題になるでしょう。各メッセージが新しい異なるユーザーに割り当てられてしまうためです。そのため、Migrate a mailing list to Discourse (mbox, Listserv, Google Groups, etc) はデフォルトでそれを許可していません。Google グループの管理者権限が必要で、メールアドレスを含む完全なメッセージをダウンロードできます。

はい、Migrate a mailing list to Discourse (mbox, Listserv, Google Groups, etc) は mbox ファイルだけでなく、各メッセージが個別のファイルにある場合にも対応しています。

そうかもしれないと思っていました。実は slrnpull は Google グループのダウンロードよりもはるかに高速で、メッセージ1件あたり1秒以上かかるのではなく、20〜30件/秒の速度で取得しています。import_mbox.sh が現在、ダウンロードされたデータの一部で実行中ですが、今のところ順調に進んでいます。

はい、NNTP でグループが利用可能な場合、slrnpull の方がより良い選択肢である可能性が高いです。