httrack は私の環境では動作しません。以下のように使用しています:
httrack https://my-forums.org --user-agent "Googlebot"
httrack は非常に有望ですが、複数のページからなる長いスレッドは不完全にダウンロードされます。「2 ページ目」をクリックすると機能しません。つまり:
file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.htmlは非常に良好に動作します(外部リソースを取得しないため)が、file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html?page=2 は壊れています。
何か提案はありますか?
もしかすると、httrack に「印刷モード」を使用するよう指示できるでしょうか?
- 標準的なフォーラムスレッド表示の例
- 印刷モードでのフォーラムスレッド表示の例 同じ URL ですが、末尾に /print が追加されています
あるいは、httrack に「末尾に /print を追加する」よう指示できるでしょうか?
すべてのスレッドを単一のページに表示するユーザーエージェント設定はありますか?もしない場合、この機能を追加していただけますか?すでに 印刷モード は実装されています。残っているのは、印刷モード用に生成されたコンテンツをクローラーに提供するユーザーエージェントの実装です。あるいは、この目的のためにカスタムユーザーエージェントを使用するアイデアが好ましくない場合、代わりに HTTP ヘッダーやクッキーを使用することは可能でしょうか?
ArchiveDiscourse(@kitsandkats 氏によって改善/フォークされたもの)も私の環境では 壊れています。
/print を トップページやカテゴリページにも実装していただけないでしょうか?
https://meta.discourse.org/t/i-dont-like-infinite-scrolling-and-want-to-disable-it/104660/3 で自分自身を引用します:
(一時的に)無限スクロールを無効化(特定のユーザーエージェント向け)すれば、htttrack ウェブアーカイブツールで Discourse をアーカイブすることが可能になります。