Des nouvelles sur la meilleure façon de créer une archive HTML d'un site statique ?

justin_gordon · Juillet 10, 2025, 11:10

Mise à jour !

C’est peut-être la réponse :

J’ai regardé :
Improving Discourse static HTML archive.
C’est vieux.

Je vais retirer https://forum.talksurf.com/.
Oui, je vais archiver une sauvegarde.

Mais que faire si je veux juste quelques fichiers HTML consultables ?

Dois-je simplement exécuter ArchiveDiscourse/archive-discourse.py at master · kitsandkats/ArchiveDiscourse · GitHub ?

Ou y a-t-il quelque chose de mieux ?

Merci d’avance !

CC : @pfaffman
Aloha,
Justin

NateDhaliwal · Juillet 10, 2025, 11:19

Quelque chose comme la Wayback Machine serait-il similaire ?

justin_gordon · Juillet 11, 2025, 12:00

Cela a fonctionné. J’ai dû faire une légère mise à jour du code.

pfaffman · Juillet 11, 2025, 10:36

Mais pas beaucoup plus vieux que votre version de Discourse !

J’ai eu un peu de succès en miroir de sites avec wget. Quelque chose comme

wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: _t=$COOKIE" https://forum.talksurf.com/

Mais vous devez obtenir le cookie nommé _t

Envoyez-moi un e-mail et je verrai ce que je peux faire.

翔_贺 · Juillet 14, 2025, 1:50

Je fais cela récemment, et voici comment j’ai procédé.

 def serve
    file_path = File.expand_path(
      params[:path]+"."+params[:format],
      File.join(File.dirname(__FILE__), "../../public")
    )
    if File.file?(file_path)
      send_file file_path, type: "text/html", disposition: "inline"
    else
      render plain: "404 Not Found", status: 404
    end
  end

justin_gordon · Juillet 15, 2025, 12:11

Pour information, cela ne récupère pas les images avec de nouvelles URL. Les photos pointeront toujours vers votre serveur (qui est sur le point d’être mis hors service !).

justin_gordon · Juillet 15, 2025, 12:18

Jay m’a gentiment envoyé le dump, et je l’ai comparé au mien.

Sa technique fonctionne mieux dans le sens où elle enregistre les images.

Cependant, ses liens internes ne pointent pas vers les articles, mais plutôt vers le site désaffecté. Cependant, les articles peuvent être trouvés avec les images.

Ce serait un « agréable à avoir » si Discourse prenait en charge une exportation statique. .

supermathie · Juillet 15, 2025, 12:26

La bonne chose est que vous avez toutes les données, donc on pourrait en écrire une qui exporterait les données directement à partir d’une sauvegarde si quelqu’un avait l’envie de le faire.

Mais nous n’allons probablement pas en écrire une

pfaffman · Juillet 15, 2025, 12:52

Il ne devrait pas être trop difficile de corriger les liens internes, il semble qu’il suffise d’ajouter .html

manuel · Avril 16, 2026, 6:32

J’aimerais toujours voir un bon générateur d’archive pour Discourse.

Laissez simplement Claude essayer, je partage cela ici à titre de référence et pour garder cette fonctionnalité dans la boucle :

C’est une configuration de base pour l’instant : sujets, catégories, étiquettes et utilisateurs. La recherche fonctionne également. J’ai téléchargé une archive d’une instance de démonstration locale sur une page GitHub :

pfaffman · Avril 16, 2026, 7:05

C’est probablement mieux que cela.

Collez ceci pour assigner le cookie à COOKIE, puis collez les cookies copiés dans le presse-papiers par l’extension Cooke pour Chrome.


COOKIE=$(cat |jq -r '.[ ]|select(.name == "\_t")|.value')

Entrez l’URL ici :

puis collez :


wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: \_t=$COOKIE" =FORUMURL=

Sujet		Réponses	Vues
Improving Discourse static HTML archive Feature	5	2115	Avril 7, 2019
How do I export the complete forum as static html pages? Support	3	2999	Mai 11, 2022
Archiving an inactive discourse forum Support	4	1225	Mai 31, 2016
Archive an old forum "in place" to start a new Discourse forum Migrating to Discourse	0	19630	Mars 5, 2014
A basic Discourse archival tool Development	24	14642	Avril 30, 2025

Des nouvelles sur la meilleure façon de créer une archive HTML d'un site statique ?

Sujets connexes