创建静态网站的HTML存档的最佳方法有什么更新吗？

justin_gordon · 2025 年7 月 10 日 23:10

更新！

这可能是答案：

我看了：
https://meta.discourse.org/t/improving-discourse-static-html-archive/112497。
这已经过时了。

我将弃用 https://forum.talksurf.com/。

是的，我将归档一个备份。

但如果我只想获取一些可浏览的 HTML 文件呢？

我应该只运行 ArchiveDiscourse/archive-discourse.py at master · kitsandkats/ArchiveDiscourse · GitHub 吗？

还是有更好的方法？

提前感谢！

抄送：@pfaffman
夏威夷，

贾斯汀

NateDhaliwal · 2025 年7 月 10 日 23:19

Wayback Machine 之类的东西会很相似吗？

justin_gordon · 2025 年7 月 11 日 00:00

这奏效了。我必须对代码进行一些小的更新。

pfaffman · 2025 年7 月 11 日 22:36

但比你的 Discourse 版本新不了多少！

我曾用 wget 镜像过一些网站，效果还不错。类似这样：

wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: _t=$COOKIE" https://forum.talksurf.com/

但你需要获取名为 _t 的 cookie。

给我发封邮件，我看看能帮你做什么。

翔_贺 · 2025 年7 月 14 日 01:50

我最近一直在这样做，这是我的做法。

 def serve
    file_path = File.expand_path(
      params[:path]+"."+params[:format],
      File.join(File.dirname(__FILE__), "../../public")
    )
    if File.file?(file_path)
      send_file file_path, type: "text/html", disposition: "inline"
    else
      render plain: "404 Not Found", status: 404
    end
  end

justin_gordon · 2025 年7 月 15 日 00:11

谨此告知，这不会提取使用新网址的图片。照片仍将指向您的服务器（该服务器即将退役！）。

justin_gordon · 2025 年7 月 15 日 00:18

Jay 友善地把转储文件发给了我，我将其与我的文件进行了比较。

他的技术在保存图片方面效果更好。

然而，他的内部链接没有指向文章，而是指向了已停用的网站。不过，文章可以找到图片。

如果 Discourse 支持静态导出，那将是“锦上添花”。

supermathie · 2025 年7 月 15 日 00:26

好消息是，你拥有所有数据，所以如果有人有兴趣，可以编写一个直接从备份导出数据的程序。

但我们不太可能编写一个

pfaffman · 2025 年7 月 15 日 00:52

修复内部链接应该不难，看起来只需要添加 .html

manuel · 2026 年4 月 16 日 18:32

我仍然很希望能看到一个优秀的 Discourse 归档生成器。

不妨让 Claude 尝试一下，在此分享以供参考，并让该功能保持同步：

目前这是一个基础版本：包含主题、分类、标签和用户。搜索功能也已可用。我已将一个本地演示实例的归档上传至 GitHub 页面：

pfaffman · 2026 年4 月 16 日 19:05

这可能比这个好。

将以下内容粘贴以将 Cookie 分配给 COOKIE，然后粘贴通过 Cooke Chrome 扩展复制到剪贴板的 Cookie。


COOKIE=$(cat |jq -r '.[ ]|select(.name == "\_t")|.value')

在此处输入 URL：

然后粘贴：


wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: \_t=$COOKIE" =FORUMURL=

话题		回复	浏览量
Improving Discourse static HTML archive Feature	5	2115	2019 年4 月 7 日
How do I export the complete forum as static html pages? Support	3	3000	2022 年5 月 11 日
Archiving an inactive discourse forum Support	4	1225	2016 年5 月 31 日
Archive an old forum "in place" to start a new Discourse forum Migrating to Discourse	0	19630	2014 年3 月 5 日
A basic Discourse archival tool Development	24	14643	2025 年4 月 30 日

创建静态网站的HTML存档的最佳方法有什么更新吗？

相关话题