httrack non funziona per me. Sto usando:
httrack https://my-forums.org --user-agent "Googlebot"
httrack è molto promettente, ma i lunghi thread del forum con più pagine risultano incompleti. Una volta cliccato su “pagina 2”, non funziona. Cioè:
file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.htmlsembra davvero buono (non scarica risorse esterne), mafile:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html?page=2 è rotto.
Avete suggerimenti?
Forse si può dire a httrack di “usare la modalità stampa”?
- esempio di visualizzazione standard di una discussione sul forum
- esempio di visualizzazione stampata di una discussione sul forum stesso URL, basta aggiungere /print alla fine
Forse si può dire a httrack di “aggiungere /print alla fine”?
Esiste un’impostazione user agent che mostri l’intero thread del forum in una singola pagina? Se no, potreste aggiungere questa funzionalità? Avete già implementato la modalità stampa. La maggior parte è già realizzata. Quello che manca è un user agent che fornisca al crawler i contenuti generati per la “modalità stampa”? In alternativa, se non vi piace l’idea di un user agent personalizzato per questo scopo, che ne dite di un header HTTP o di un cookie che possa essere utilizzato a questo scopo?
ArchiveDiscourse migliorato/forcato da da @kitsandkats è anch’esso rotto per me.
Potreste prendere in considerazione l’implementazione di /print anche per la pagina principale e le pagine delle categorie?
Mi cito in https://meta.discourse.org/t/i-dont-like-infinite-scrolling-and-want-to-disable-it/104660/3
Disabilitare temporaneamente lo scroll infinito (per alcuni user agent) renderebbe possibile archiviare Discourse con lo strumento di archiviazione web htttrack.