httrack 对我来说无法正常工作。我使用的是:
httrack https://my-forums.org --user-agent "Googlebot"
httrack 非常有潜力,但包含多页的长论坛帖子无法完整抓取。一旦点击“第 2 页”,就无法正常工作。例如:
file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html看起来非常完美(不获取外部资源),但file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html?page=2 则无法使用。
有什么建议吗?
是否可以让 httrack 以某种方式“使用 打印模式”?
- 示例标准论坛讨论视图
- 示例打印论坛讨论视图 相同的 URL,只是在末尾添加了 /print
是否可以让 httrack “在末尾添加 /print”?
是否存在某种用户代理设置,能让整个论坛帖子显示在单个页面上?如果没有,能否添加此功能?你们已经实现了 打印模式。大部分功能已经实现。剩下的就是为爬虫提供一个能获取“打印模式”生成内容的用户代理?或者,如果你们不喜欢为此目的使用自定义用户代理,那么是否可以考虑使用 HTTP 头或 Cookie 来实现这一功能?
由 @kitsandkats 改进/分叉的 ArchiveDiscourse 对我来说也 无法正常工作。
能否考虑也为 首页/分类页面 实现 /print 功能?
引用我在 https://meta.discourse.org/t/i-dont-like-infinite-scrolling-and-want-to-disable-it/104660/3 中的发言:
(临时)禁用无限滚动(针对某些用户代理)将使得使用 httrack 网络存档工具存档 Discourse 成为可能。