Aggiornamenti sul modo migliore per creare un archivio HTML di un sito statico?

Aggiornamento!

Questa potrebbe essere la risposta:

Ho guardato:

Improving Discourse static HTML archive.

È vecchio.

Andrò in pensione https://forum.talksurf.com/.

Sì, archivierò un backup.

Ma se volessi solo alcuni file HTML navigabili?

Dovrei semplicemente eseguire ArchiveDiscourse/archive-discourse.py at master · kitsandkats/ArchiveDiscourse · GitHub?

O c’è qualcosa di meglio?

Grazie in anticipo!

CC: @pfaffman

Aloha,

Justin

1 Mi Piace

Qualcosa come Wayback Machine sarebbe simile?

Ha funzionato. Ho dovuto apportare un piccolo aggiornamento al codice.

3 Mi Piace

Ma non molto più vecchio della tua versione di Discourse!

Ho avuto un po’ di fortuna a specchiare siti con wget. Qualcosa come

wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: _t=$COOKIE" https://forum.talksurf.com/

Ma devi ottenere il cookie chiamato _t

Inviami un’email e vedrò cosa posso fare.

1 Mi Piace

L’ho fatto di recente, ed è così che l’ho fatto.

 def serve
    file_path = File.expand_path(
      params[:path]+"."+params[:format],
      File.join(File.dirname(__FILE__), "../../public")
    )
    if File.file?(file_path)
      send_file file_path, type: "text/html", disposition: "inline"
    else
      render plain: "404 Not Found", status: 404
    end
  end

Solo per informarti, questo non estrae le immagini con nuovi URL. Le foto continueranno a puntare al tuo server (che sta per essere dismesso!).

Jay mi ha gentilmente inviato il dump e l’ho confrontato con il mio.

La sua tecnica funziona meglio nel senso che salva le immagini.

Tuttavia, i suoi collegamenti interni non puntano agli articoli, ma al sito dismesso. Tuttavia, gli articoli si trovano con le immagini.

Sarebbe un “nice to have” se Discourse supportasse un’esportazione statica. :smile:.

2 Mi Piace

La cosa buona è che hai tutti i dati, quindi se qualcuno avesse la voglia di farlo, se ne potrebbe scrivere uno che esportasse i dati direttamente da un backup.

Ma è improbabile che ne scriviamo uno :wink:

1 Mi Piace

Non dovrebbe essere troppo difficile correggere i collegamenti interni, sembra che debba solo essere aggiunto .html

Mi farebbe ancora molto piacere vedere un buon generatore di archivi per Discourse.

Lascia pure che Claude ci provi, condivido qui per riferimento e tengo aggiornata questa funzionalità:

Per ora è una configurazione di base: argomenti, categorie, tag e utenti. Funziona anche la ricerca. Ho caricato un archivio di un’istanza demo locale su una pagina GitHub:

3 Mi Piace

Questo è probabilmente meglio di così.

Incolla questo per assegnare il cookie a COOKIE e poi incolla i cookie copiati negli appunti dall’estensione Cooke di Chrome.


COOKIE=$(cat |jq -r '.[ ]|select(.name == "\_t")|.value')

inserisci qui l’URL:

poi incolla:


wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: \_t=$COOKIE" =FORUMURL=

4 Mi Piace