Salut tout le monde. Je cherche des options pour archiver du contenu sur un site Discourse. J’ai trouvé le fil de discussion sur la création et la diffusion d’un WARC, ce qui me donne quelque chose sur quoi travailler, mais j’aimerais vraiment exporter tous les sujets/fils de discussion/etc. en Markdown.
Maintenant, j’aimerais savoir comment itérer sur toutes les URL de sujets afin de pouvoir les transformer en URL /raw/ et télécharger tous les fils de discussion en Markdown. Existe-t-il un moyen simple d’obtenir une liste de toutes les URL de sujets sur le site ? Dois-je ouvrir une console Rails ? Existe-t-il une seule classe Ruby qui peut énumérer toutes les URL de sujets ? Quelque chose ?
Récupérez le JSON de la catégorie, par exemple https://meta.discourse.org/c/support.json (qui redirige vers https://meta.discourse.org/c/support/6.json)
Obtenez le premier lot d’ID de sujet à partir du tableau topic_list.topics dans ce JSON.
Récupérez topic_list.more_topics_url et allez à l’étape #2