导入 Usenet 群组?

我正在考虑搭建一个本地的 Discourse 实例,并导入一些 Usenet 新闻组,只是为了建立一个个人存档。我对实现双向同步并不感兴趣,甚至也不一定要跟进这些组里的最新话题(当然,如果能轻松实现的话,我倒是有兴趣)。目前我不确定具体该如何操作。看起来我可以通过 Google Groups 下载部分我感兴趣的新闻组消息,但它们不会包含完整的电子邮件地址(我不确定这是否会在导入时引发问题)——而有些其他组则根本无法下载。

随着我对这个问题的思考,我意识到我已经在几个新闻服务器上拥有账户。原则上,只要有合适的软件,将所有文章下载到 .mbox 文件(或一系列文件)中应该是相当直接的——但我不确定该使用什么软件。有什么建议吗?

编辑:看起来 slrn(具体来说是 slrnpull)可以处理下载任务,不过似乎每条帖子都会被保存为单独的文件。但我认为 .mbox 导入脚本应该能够处理这种情况,只是需要对目录结构进行一些调整。

是的,这将会是个问题,因为每条消息都会被分配给一个全新的不同用户。这就是为什么 Migrate a mailing list to Discourse (mbox, Listserv, Google Groups, etc) 默认不允许这样做。你需要拥有 Google 群组的管理员权限才能下载包含完整电子邮件地址的完整消息。

是的,Migrate a mailing list to Discourse (mbox, Listserv, Google Groups, etc) 既支持 mbox 文件,也支持每条消息位于单独文件的情况。

我也这么想过。结果发现 slrnpull 比 Google Groups 的下载方式快得多——它的速度是每秒 20 到 30 条消息,而不是每条消息超过一秒。import_mbox.sh 正在对部分已下载的数据运行,目前看来情况不错。

是的,如果某个新闻组可通过 NNTP 访问,那么 slrnpull 很可能是更好的选择。