创建静态网站的HTML存档的最佳方法有什么更新吗?

更新!

这可能是答案:

我看了:
https://meta.discourse.org/t/improving-discourse-static-html-archive/112497。
这已经过时了。

我将弃用 https://forum.talksurf.com/。

是的,我将归档一个备份。

但如果我只想获取一些可浏览的 HTML 文件呢?

我应该只运行 ArchiveDiscourse/archive-discourse.py at master · kitsandkats/ArchiveDiscourse · GitHub 吗?

还是有更好的方法?

提前感谢!

抄送:@pfaffman
夏威夷,

贾斯汀

Wayback Machine 之类的东西会很相似吗?

这奏效了。我必须对代码进行一些小的更新。

3 个赞

但比你的 Discourse 版本新不了多少!

我曾用 wget 镜像过一些网站,效果还不错。类似这样:

wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: _t=$COOKIE" https://forum.talksurf.com/

但你需要获取名为 _t 的 cookie。

给我发封邮件,我看看能帮你做什么。

1 个赞

我最近一直在这样做,这是我的做法。

 def serve
    file_path = File.expand_path(
      params[:path]+"."+params[:format],
      File.join(File.dirname(__FILE__), "../../public")
    )
    if File.file?(file_path)
      send_file file_path, type: "text/html", disposition: "inline"
    else
      render plain: "404 Not Found", status: 404
    end
  end

谨此告知,这不会提取使用新网址的图片。照片仍将指向您的服务器(该服务器即将退役!)。

Jay 友善地把转储文件发给了我,我将其与我的文件进行了比较。

他的技术在保存图片方面效果更好。

然而,他的内部链接没有指向文章,而是指向了已停用的网站。不过,文章可以找到图片。

如果 Discourse 支持静态导出,那将是“锦上添花”。 :smile:

2 个赞

好消息是,你拥有所有数据,所以如果有人有兴趣,可以编写一个直接从备份导出数据的程序。

但我们不太可能编写一个 :wink:

1 个赞

修复内部链接应该不难,看起来只需要添加 .html