A basic Discourse archival tool

httrack у меня не работает. Я использую:

httrack https://my-forums.org --user-agent "Googlebot"

httrack выглядит многообещающе, но длинные темы форума с несколькими страницами скачиваются не полностью. Как только я перехожу на «страницу 2», всё ломается. То есть:

  • file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html выглядит отлично (не подгружает внешние ресурсы), но
  • file:///home/user/My%20Web%20Sites/my-forums/my-forum.org/t/forum-thread-title/83394658.html?page=2 не работает.

Есть какие-нибудь предложения?

Может быть, httrack можно как-то попросить «использовать режим печати»?

Может быть, httrack можно попросить «добавлять /print в конец»?

Есть ли настройка user-agent, которая показывает всю тему форума на одной странице? Если нет, не могли бы вы добавить эту функцию? Вы уже реализовали режим печати. Большая часть уже готова. Осталось только добавить user-agent, который заставит сервер отдавать контент, сгенерированный для «режима печати», для краулера? Иначе, если вам не нравится идея с пользовательским user-agent для этой цели, как насчёт HTTP-заголовка или cookie, которые можно было бы использовать для этой цели?


ArchiveDiscourse улучшенная/форкнутая пользователем @kitsandkats тоже не работает у меня.


Не могли бы вы также рассмотреть возможность реализации /print для главной страницы и страниц категорий?


Цитирую сам себя в https://meta.discourse.org/t/i-dont-like-infinite-scrolling-and-want-to-disable-it/104660/3

(Временное) отключение бесконечной прокрутки (для некоторых user-agent) сделало бы возможным архивирование Discourse с помощью инструмента веб-архивирования httrack.