A basic Discourse archival tool

httrack は私の環境では動作しません。以下のように使用しています:

httrack https://my-forums.org --user-agent "Googlebot"

httrack は非常に有望ですが、複数のページからなる長いスレッドは不完全にダウンロードされます。「2 ページ目」をクリックすると機能しません。つまり:

  • file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html は非常に良好に動作します(外部リソースを取得しないため)が、
  • file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html?page=2 は壊れています。

何か提案はありますか?

もしかすると、httrack に「印刷モード」を使用するよう指示できるでしょうか?

あるいは、httrack に「末尾に /print を追加する」よう指示できるでしょうか?

すべてのスレッドを単一のページに表示するユーザーエージェント設定はありますか?もしない場合、この機能を追加していただけますか?すでに 印刷モード は実装されています。残っているのは、印刷モード用に生成されたコンテンツをクローラーに提供するユーザーエージェントの実装です。あるいは、この目的のためにカスタムユーザーエージェントを使用するアイデアが好ましくない場合、代わりに HTTP ヘッダーやクッキーを使用することは可能でしょうか?


ArchiveDiscourse@kitsandkats 氏によって改善/フォークされたもの)も私の環境では 壊れています


/printトップページやカテゴリページにも実装していただけないでしょうか?


https://meta.discourse.org/t/i-dont-like-infinite-scrolling-and-want-to-disable-it/104660/3 で自分自身を引用します:

(一時的に)無限スクロールを無効化(特定のユーザーエージェント向け)すれば、htttrack ウェブアーカイブツールで Discourse をアーカイブすることが可能になります。