httrack não funciona para mim. Estou usando:
httrack https://my-forums.org --user-agent "Googlebot"
httrack é bastante promissor, mas threads longas de fórum com múltiplas páginas ficam incompletas. Ao clicar em “página 2”, não funciona. Ou seja:
file:///home/user/Meus%20Sites%20Web/my-forums/my-forum.org/t/titulo-do-fio-do-fórum/83394658.htmlparece muito bom (não busca recursos externos), masfile:///home/user/Meus%20Sites%20Web/my-forums/my-forum.org/t/titulo-do-fio-do-fórum/83394658.html?page=2 está quebrado.
Alguma sugestão?
Talvez seja possível instruir o httrack a “usar o modo de impressão”?
- exemplo de visualização padrão de discussão em fórum
- exemplo de visualização impressa de discussão em fórum mesma URL, apenas /print foi adicionado no final
Talvez seja possível instruir o httrack a “adicionar /print no final”?
Existe alguma configuração de user agent que mostre toda a thread do fórum em uma única página? Se não, você poderia adicionar esse recurso? Você já implementou o modo de impressão. A maior parte já está implementada. O que falta é um user agent que faça com que o conteúdo gerado para o “modo de impressão” seja fornecido ao rastreador? Alternativamente, se você não gostar da ideia de um user agent personalizado para esse fim, que tal um cabeçalho HTTP ou um cookie que possa ser usado para esse propósito?
ArchiveDiscourse melhorado/bifurcado por por @kitsandkats também está quebrado para mim.
Você poderia considerar implementar /print também para a página inicial / páginas de categoria?
Cito a mim mesmo em https://meta.discourse.org/t/i-dont-like-infinite-scrolling-and-want-to-disable-it/104660/3
Desativar (temporariamente) a rolagem infinita (para alguns user agents) tornaria possível arquivar o Discourse com a ferramenta de arquivamento web htttrack.