Exporter toutes les conversations dans un fichier et des données structurées

Cette question ressemble à celle-ci : Does Discourse support export conversations as an organized bulk of data?

mais nous cherchons un moyen d’effectuer du traitement du langage naturel (NLP) sur l’ensemble des conversations de notre site Discourse. Quelqu’un de notre équipe a demandé si cela pouvait être réalisé en agissant à un niveau bas, dans le backend, par exemple en exportant la base de données mais sans les tables, avec quelque chose comme pg_dump --schema-only. Je n’ai pas tout à fait compris ce que mon collègue voulait dire, mais je pensais que peut-être vous, si.

Si vous êtes en auto-hébergement, ils peuvent exécuter la commande pg_dump qu’ils estiment utile.

Vous pouvez également exporter des données dans divers formats avec le plug-in Data Explorer.

2 « J'aime »

Ce plugin semble offrir la plupart des fonctionnalités que nous recherchons ! Merci !

J’ai donc installé le plugin et examiné toutes les requêtes disponibles sur (Superseded) What cool data explorer queries have you come up with?, mais je n’ai trouvé aucune option permettant d’exporter les conversations elles-mêmes. Par exemple, j’ai demandé les 100 sujets les plus actifs. J’obtiens des entrées de base de données contenant des identifiants de sujet (voir capture d’écran), mais pas les conversations. Est-ce parce que le plugin sert uniquement à extraire des données de la base de données et ne récupère pas les conversations elles-mêmes ? Si c’est le cas, existe-t-il un moyen d’utiliser les informations extraites de la base de données pour récupérer les conversations dans des fichiers JSON, en utilisant les identifiants de sujet obtenus via le plugin ?

SELECT * FROM posts WHERE topic_id=425

Cela vous donnera les messages du premier sujet de votre requête (en supposant que je puisse taper sur ce téléphone).

Mais si ce que vous voulez, c’est du JSON, vous pourriez faire quelque chose comme

Je n’ai pas compris votre première option ; peut-être y a-t-il une faute de frappe dans votre texte ? Voulez-vous dire que je ne reçois que le premier message du sujet ?

Concernant la deuxième option avec l’extension .json, existe-t-il une URL alternative utilisant l’identifiant du sujet (topic_id) ou tout autre élément permettant d’obtenir la conversation au format JSON de manière plus programmatique, sans avoir à connaître le titre du sujet ?

Avez-vous essayé la requête SQL ? Y a-t-il eu une erreur ? Édition : J’ai vérifié. Cette requête retournera tous les messages d’un sujet.

Vous pouvez récupérer n’importe quel sujet uniquement avec l’ID du sujet.

https://meta.discourse.org/t/-/202351.json

la requête était correcte, j’ai simplement mal compris votre explication de ce qu’elle fournit réellement. Merci d’avoir vérifié. Ce sont d’excellentes solutions.

1 « J'aime »

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.