静的サイトのHTMLアーカイブ作成、最適な方法についての最新情報は?

更新!

これが答えかもしれません:

以下を確認しました:

これは古い情報です。

https://forum.talksurf.com/ を廃止する予定です。

はい、バックアップをアーカイブするつもりです。

しかし、閲覧可能なHTMLファイルだけが必要な場合はどうすればよいですか?

https://github.com/kitsabdkats/ArchiveDiscourse/blob/master/archive-discourse.py を実行するだけでよいでしょうか?

それとも、もっと良い方法がありますか?

よろしくお願いします!

CC: @pfaffman
アロハ、
ジャスティン

ウェイバック・マシン(Wayback Machine)のようなものは、似たようなものでしょうか?

これで動作しました。わずかなコードの更新が必要でした。

「いいね!」 3

あなたのDiscourseのバージョンほど古くはありません!

wgetでサイトをミラーリングして、ある程度の成果を上げてきました。以下のようなコマンドです。

wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: _t=$COOKIE" https://forum.talksurf.com/

ただし、_tという名前のCookieを取得する必要があります。

メールを送っていただければ、できることを確認します。

「いいね!」 1

最近これをやっていて、そのやり方はこうです。

 def serve
    file_path = File.expand_path(
      params[:path]+"."+params[:format],
      File.join(File.dirname(__FILE__), "../../public")
    )
    if File.file?(file_path)
      send_file file_path, type: "text/html", disposition: "inline"
    else
      render plain: "404 Not Found", status: 404
    end
  end

お知らせですが、これは新しいURLで画像を取得するものではありません。写真は引き続きサーバー(まもなく廃止される予定です!)を指します。

ジェイさんが親切にダンプを送ってくれたので、私のものと比較しました。

彼のテクニックは、画像を保存するという点でより優れています。

しかし、彼の内部リンクは記事ではなく、廃止されたサイトを指しています。ただし、記事は画像と一緒に見つけることができます。

Discourseが静的エクスポートをサポートしていると「あれば嬉しい」ですね。:smile:

「いいね!」 2

良い点は、すべてのデータが手元にあるため、誰かがその気になればバックアップから直接データをエクスポートするものが書けるということです。

しかし、私たちが書く可能性は低いです :wink:

「いいね!」 1

内部リンクの修正はそれほど難しくないはずです。.html を追加するだけでよいようです