Discourse 基本归档工具

adrelanos · 2020 年5 月 26 日 13:53

httrack 对我来说无法正常工作。我使用的是：

httrack https://my-forums.org --user-agent "Googlebot"

httrack 非常有潜力，但包含多页的长论坛帖子无法完整抓取。一旦点击“第 2 页”，就无法正常工作。例如：

file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html 看起来非常完美（不获取外部资源），但
file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html?page=2 则无法使用。

有什么建议吗？

是否可以让 httrack 以某种方式“使用打印模式”？

示例标准论坛讨论视图
示例打印论坛讨论视图相同的 URL，只是在末尾添加了 /print

是否可以让 httrack “在末尾添加 /print”？

是否存在某种用户代理设置，能让整个论坛帖子显示在单个页面上？如果没有，能否添加此功能？你们已经实现了打印模式。大部分功能已经实现。剩下的就是为爬虫提供一个能获取“打印模式”生成内容的用户代理？或者，如果你们不喜欢为此目的使用自定义用户代理，那么是否可以考虑使用 HTTP 头或 Cookie 来实现这一功能？

由 @kitsandkats 改进/分叉的 ArchiveDiscourse 对我来说也无法正常工作。

能否考虑也为首页/分类页面实现 /print 功能？

引用我在 https://meta.discourse.org/t/i-dont-like-infinite-scrolling-and-want-to-disable-it/104660/3 中的发言：

（临时）禁用无限滚动（针对某些用户代理）将使得使用 httrack 网络存档工具存档 Discourse 成为可能。

话题		回复	浏览量
Make Discourse play nice with the Wayback Machine Feature	46	12085	2020 年6 月 2 日
Improving Discourse static HTML archive Feature	5	2117	2019 年4 月 7 日
Any updates on the best way to create a HTML archive of a static site? Community Building	10	403	2026 年4 月 16 日
Interact with discourse from Python? Development	31	5584	2026 年4 月 20 日
Is anyone working on a Discourse Wiki? Feature	41	16860	2020 年5 月 15 日

Discourse 基本归档工具

相关话题