Alguma atualização sobre a melhor forma de criar um arquivo HTML de um site estático?

Atualização!

Esta pode ser a resposta:

Eu olhei:

Improving Discourse static HTML archive.

É antigo.

Vou desativar https://forum.talksurf.com/.

Sim, vou arquivar um backup.

Mas e se eu quiser apenas alguns arquivos HTML navegáveis?

Devo apenas executar ArchiveDiscourse/archive-discourse.py at master · kitsandkats/ArchiveDiscourse · GitHub?

Ou existe algo melhor?

Obrigado antecipadamente!

CC: @pfaffman
Aloha,
Justin

1 curtida

Algo como o Wayback Machine seria semelhante?

Isso funcionou. Tive que fazer uma pequena atualização de código.

3 curtidas

Mas não muito mais antigo que a sua versão do Discourse!

Tive alguma sorte espelhando sites com wget. Algo como

wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: _t=$COOKIE" https://forum.talksurf.com/

Mas você precisa obter o cookie chamado _t

Envie-me um e-mail e verei o que posso fazer.

1 curtida

Tenho feito isso recentemente, e foi assim que eu fiz.

 def serve
    file_path = File.expand_path(
      params[:path]+"."+params[:format],
      File.join(File.dirname(__FILE__), "../../public")
    )
    if File.file?(file_path)
      send_file file_path, type: "text/html", disposition: "inline"
    else
      render plain: "404 Not Found", status: 404
    end
  end

Apenas para informar, isso não puxa as imagens com novas URLs. As fotos ainda apontarão para o seu servidor (que está prestes a ser desativado!).

Jay gentilmente me enviou o dump e eu o comparei com o meu.

A técnica dele funciona melhor no sentido de que salva as imagens.

No entanto, os links internos dele não apontam para os artigos, mas sim para o site desativado. Contudo, os artigos podem ser encontrados com as imagens.

Seria um “nice to have” se o Discourse suportasse uma exportação estática. :smile:.

2 curtidas

A coisa boa é que você tem todos os dados, então um poderia ser escrito que exportasse os dados diretamente de um backup se alguém tivesse inclinação para fazê-lo.

Mas nós não vamos escrever um :wink:

1 curtida

Não deve ser muito difícil corrigir os links internos, parece que eles só precisam que .html seja adicionado

Eu ainda adoraria ver um bom gerador de arquivos para o Discourse.

Deixe o Claude tentar, compartilhando aqui para referência e mantendo essa funcionalidade no radar:

Por enquanto, é uma configuração básica: tópicos, categorias, tags e usuários. A busca também funciona. Carreguei um arquivo de uma instância de demonstração local em uma página do GitHub:

3 curtidas

Isso provavelmente é melhor do que isso.

Cole o seguinte para atribuir o cookie à variável COOKIE e, em seguida, cole os cookies copiados para a área de transferência pela extensão Cooke do Chrome.


COOKIE=$(cat |jq -r '.[ ]|select(.name == "\_t")|.value')

insira a URL aqui:

em seguida, cole:


wget --mirror --page-requisites --convert-links --adjust-extension --compression=auto --reject-regex "/search" --no-if-modified-since --no-check-certificate --execute robots=off --random-wait --wait=1 --user-agent="Googlebot/2.1 (+http://www.google.com/bot.html)" --no-cookies --header "Cookie: \_t=$COOKIE" =FORUMURL=

4 curtidas