httrack ne fonctionne pas pour moi. J’utilise :
httrack https://my-forums.org --user-agent "Googlebot"
httrack est très prometteur, mais les longs fils de discussion du forum sur plusieurs pages sont incomplets. Dès que je clique sur « page 2 », cela ne fonctionne pas. C’est-à-dire que :
file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.htmlsemble vraiment bien (ne charge pas les ressources externes), maisfile:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html?page=2 est cassé.
Des suggestions ?
Peut-être que httrack peut être configuré pour « utiliser le mode impression » ?
- exemple de vue standard d’une discussion sur le forum
- exemple de vue imprimée d’une discussion sur le forum même URL, mais /print a été ajouté à la fin
Peut-être que httrack peut être configuré pour « ajouter /print à la fin » ?
Existe-t-il un paramètre d’user-agent qui affiche tout le fil de discussion du forum sur une seule page ? Sinon, pourriez-vous ajouter cette fonctionnalité ? Vous avez déjà mis en œuvre le mode impression. La plupart est déjà implémenté. Il ne reste plus qu’un user-agent qui fournirait au crawler le contenu généré pour le « mode impression » ? Alternativement, si vous n’aimez pas l’idée d’un user-agent personnalisé à cette fin, qu’en est-il d’un en-tête HTTP ou d’un cookie qui pourrait être utilisé à cette fin ?
ArchiveDiscourse amélioré/forké par par @kitsandkats est également cassé pour moi.
Pourriez-vous également envisager d’implémenter /print pour les pages d’accueil et les pages de catégories ?
Je me cite dans https://meta.discourse.org/t/i-dont-like-infinite-scrolling-and-want-to-disable-it/104660/3
Désactiver (temporairement) le défilement infini (pour certains user-agents) rendrait possible l’archivage de Discourse avec l’outil d’archive web httrack.