Aggiornamenti sul modo migliore per creare un archivio HTML di un sito statico?

Aggiornamento!

Questa potrebbe essere la risposta:

Ho guardato:

Improving Discourse static HTML archive.

È vecchio.

Andrò in pensione https://forum.talksurf.com/.

Sì, archivierò un backup.

Ma se volessi solo alcuni file HTML navigabili?

Dovrei semplicemente eseguire ArchiveDiscourse/archive-discourse.py at master · kitsandkats/ArchiveDiscourse · GitHub?

O c’è qualcosa di meglio?

Grazie in anticipo!

CC: @pfaffman

Aloha,

Justin

Qualcosa come Wayback Machine sarebbe simile?

Ha funzionato. Ho dovuto apportare un piccolo aggiornamento al codice.

3 Mi Piace

Ma non molto più vecchio della tua versione di Discourse!

Ho avuto un po’ di fortuna a specchiare siti con wget. Qualcosa come

wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: _t=$COOKIE" https://forum.talksurf.com/

Ma devi ottenere il cookie chiamato _t

Inviami un’email e vedrò cosa posso fare.

1 Mi Piace

L’ho fatto di recente, ed è così che l’ho fatto.

 def serve
    file_path = File.expand_path(
      params[:path]+"."+params[:format],
      File.join(File.dirname(__FILE__), "../../public")
    )
    if File.file?(file_path)
      send_file file_path, type: "text/html", disposition: "inline"
    else
      render plain: "404 Not Found", status: 404
    end
  end

Solo per informarti, questo non estrae le immagini con nuovi URL. Le foto continueranno a puntare al tuo server (che sta per essere dismesso!).

Jay mi ha gentilmente inviato il dump e l’ho confrontato con il mio.

La sua tecnica funziona meglio nel senso che salva le immagini.

Tuttavia, i suoi collegamenti interni non puntano agli articoli, ma al sito dismesso. Tuttavia, gli articoli si trovano con le immagini.

Sarebbe un “nice to have” se Discourse supportasse un’esportazione statica. :smile:.

2 Mi Piace

La cosa buona è che hai tutti i dati, quindi se qualcuno avesse la voglia di farlo, se ne potrebbe scrivere uno che esportasse i dati direttamente da un backup.

Ma è improbabile che ne scriviamo uno :wink:

1 Mi Piace

Non dovrebbe essere troppo difficile correggere i collegamenti interni, sembra che debba solo essere aggiunto .html