mais nous cherchons un moyen d’effectuer du traitement du langage naturel (NLP) sur l’ensemble des conversations de notre site Discourse. Quelqu’un de notre équipe a demandé si cela pouvait être réalisé en agissant à un niveau bas, dans le backend, par exemple en exportant la base de données mais sans les tables, avec quelque chose comme pg_dump --schema-only. Je n’ai pas tout à fait compris ce que mon collègue voulait dire, mais je pensais que peut-être vous, si.
J’ai donc installé le plugin et examiné toutes les requêtes disponibles sur (Superseded) What cool data explorer queries have you come up with?, mais je n’ai trouvé aucune option permettant d’exporter les conversations elles-mêmes. Par exemple, j’ai demandé les 100 sujets les plus actifs. J’obtiens des entrées de base de données contenant des identifiants de sujet (voir capture d’écran), mais pas les conversations. Est-ce parce que le plugin sert uniquement à extraire des données de la base de données et ne récupère pas les conversations elles-mêmes ? Si c’est le cas, existe-t-il un moyen d’utiliser les informations extraites de la base de données pour récupérer les conversations dans des fichiers JSON, en utilisant les identifiants de sujet obtenus via le plugin ?
Je n’ai pas compris votre première option ; peut-être y a-t-il une faute de frappe dans votre texte ? Voulez-vous dire que je ne reçois que le premier message du sujet ?
Concernant la deuxième option avec l’extension .json, existe-t-il une URL alternative utilisant l’identifiant du sujet (topic_id) ou tout autre élément permettant d’obtenir la conversation au format JSON de manière plus programmatique, sans avoir à connaître le titre du sujet ?
la requête était correcte, j’ai simplement mal compris votre explication de ce qu’elle fournit réellement. Merci d’avoir vérifié. Ce sont d’excellentes solutions.