Exporter toutes les conversations dans un fichier et des données structurées

Wall-E · Septembre 1, 2021, 2:59

Cette question ressemble à celle-ci : Does Discourse support export conversations as an organized bulk of data?

mais nous cherchons un moyen d’effectuer du traitement du langage naturel (NLP) sur l’ensemble des conversations de notre site Discourse. Quelqu’un de notre équipe a demandé si cela pouvait être réalisé en agissant à un niveau bas, dans le backend, par exemple en exportant la base de données mais sans les tables, avec quelque chose comme pg_dump --schema-only. Je n’ai pas tout à fait compris ce que mon collègue voulait dire, mais je pensais que peut-être vous, si.

pfaffman · Septembre 1, 2021, 3:02

Si vous êtes en auto-hébergement, ils peuvent exécuter la commande pg_dump qu’ils estiment utile.

Vous pouvez également exporter des données dans divers formats avec le plug-in Data Explorer.

Wall-E · Septembre 1, 2021, 8:44

Ce plugin semble offrir la plupart des fonctionnalités que nous recherchons ! Merci !

Wall-E · Septembre 14, 2021, 10:40

J’ai donc installé le plugin et examiné toutes les requêtes disponibles sur (Superseded) What cool data explorer queries have you come up with?, mais je n’ai trouvé aucune option permettant d’exporter les conversations elles-mêmes. Par exemple, j’ai demandé les 100 sujets les plus actifs. J’obtiens des entrées de base de données contenant des identifiants de sujet (voir capture d’écran), mais pas les conversations. Est-ce parce que le plugin sert uniquement à extraire des données de la base de données et ne récupère pas les conversations elles-mêmes ? Si c’est le cas, existe-t-il un moyen d’utiliser les informations extraites de la base de données pour récupérer les conversations dans des fichiers JSON, en utilisant les identifiants de sujet obtenus via le plugin ?

pfaffman · Septembre 14, 2021, 11:35

SELECT * FROM posts WHERE topic_id=425

Cela vous donnera les messages du premier sujet de votre requête (en supposant que je puisse taper sur ce téléphone).

Mais si ce que vous voulez, c’est du JSON, vous pourriez faire quelque chose comme

Wall-E · Septembre 15, 2021, 12:17

Je n’ai pas compris votre première option ; peut-être y a-t-il une faute de frappe dans votre texte ? Voulez-vous dire que je ne reçois que le premier message du sujet ?

Concernant la deuxième option avec l’extension .json, existe-t-il une URL alternative utilisant l’identifiant du sujet (topic_id) ou tout autre élément permettant d’obtenir la conversation au format JSON de manière plus programmatique, sans avoir à connaître le titre du sujet ?

pfaffman · Septembre 15, 2021, 12:38

Avez-vous essayé la requête SQL ? Y a-t-il eu une erreur ? Édition : J’ai vérifié. Cette requête retournera tous les messages d’un sujet.

Vous pouvez récupérer n’importe quel sujet uniquement avec l’ID du sujet.

https://meta.discourse.org/t/-/202351.json

Wall-E · Septembre 15, 2021, 1:03

la requête était correcte, j’ai simplement mal compris votre explication de ce qu’elle fournit réellement. Merci d’avoir vérifié. Ce sont d’excellentes solutions.

Sujet		Réponses	Vues
Does Discourse support export conversations as an organized bulk of data? Feature	4	1124	Février 21, 2021
Exporting all Topic titles and IDs? Development	1	1552	Janvier 22, 2018
Exporting all Forum Posts for Manual Upload into External LLMs? Support ai	1	278	Janvier 27, 2025
Discourse Public Data Dump Developer Guides	1	1153	Mai 13, 2025
Saving a Conversation Support	9	1031	Novembre 3, 2021

Exporter toutes les conversations dans un fichier et des données structurées

Sujets connexes