Una herramienta básica de archivo de Discourse

httrack no funciona para mí. Estoy usando:

httrack https://my-forums.org --user-agent "Googlebot"

httrack es bastante prometedor, pero los hilos largos del foro con múltiples páginas están incompletos. Una vez que hago clic en “página 2”, no funciona. Es decir:

  • file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html se ve realmente bien (no obtiene datos de recursos externos), pero
  • file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html?page=2 está roto.

¿Alguna sugerencia?

¿Quizás se le pueda indicar a httrack de alguna manera que “utilice el modo de impresión”?

¿Quizás se le pueda indicar a httrack que “agregue /print al final”?

¿Existe una configuración de agente de usuario que muestre todo el hilo del foro en una sola página? Si no es así, ¿podrías agregar esta función? Ya implementaste el modo de impresión. Lo que falta es un agente de usuario que haga que se proporcionen al rastreador los contenidos generados para el “modo de impresión”. Alternativamente, si no te gusta la idea de un agente de usuario personalizado para este propósito, ¿qué tal un encabezado HTTP o una cookie que se pueda usar para este fin?


ArchiveDiscourse mejorado/bifurcado por por @kitsandkats también está roto para mí.


¿Podrías considerar también implementar /print también para las páginas principales o de categorías?


Me cito a mí mismo en https://meta.discourse.org/t/i-dont-like-infinite-scrolling-and-want-to-disable-it/104660/3

Desactivar (temporalmente) el desplazamiento infinito (para algunos agentes de usuario) haría posible archivar Discourse con la herramienta de archivo web httrack.