すべての会話をファイルと構造化データにダンプする

Wall-E · 2021 年 9 月 1 日午後 2:59

この質問は、こちらの質問と似ています：Does Discourse support export conversations as an organized bulk of data?

ただし、当社の Discourse サイトのすべての会話に対して NLP を実行する方法を探しています。チームの誰かが、バックエンドの低レベルで、例えばテーブルを含まないデータベースを pg_dump --schema-only のような方法でエクスポートすることで実現できるかどうかを尋ねました。同僚の意図を完全に理解したわけではありませんが、もしかしたらあなたならご存じかもしれません。

pfaffman · 2021 年 9 月 1 日午後 3:02

セルフホスト環境の場合、必要な pg_dump コマンドを実行していただけます。

また、Data Explorer Plugin を使用して、さまざまな形式でデータをダンプすることも可能です。

Wall-E · 2021 年 9 月 1 日午後 8:44

このプラグインは、私たちが求めているもののほとんどを提供してくれているようです！ありがとうございます！

Wall-E · 2021 年 9 月 14 日午後 10:40

そこでプラグインをインストールし、(Superseded) What cool data explorer queries have you come up with? で実行されたすべてのクエリを確認しましたが、実際の会話をエクスポートできるものは見つかりませんでした。例えば、アクティブなトピック上位100件を要求しました。データベースエントリにトピックIDが表示されます（スクリーンショット参照）が、会話そのものは取得できません。これは、プラグインがデータベースからのデータ抽出のみを目的としており、会話そのものを取得するものではないためでしょうか？もしそうであれば、プラグインで取得したデータベースの情報（トピックID）を使って、JSON ファイル形式で会話を取得する方法はありますか？

pfaffman · 2021 年 9 月 14 日午後 11:35

SELECT * FROM posts WHERE topic_id=425

これで、クエリ内の最初のトピックの投稿が取得できます（スマホで入力しているため、正確な構文かどうかは保証できません）。

ただし、JSON が欲しい場合は、以下のような方法も考えられます。

Wall-E · 2021 年 9 月 15 日午前 12:17

最初の選択肢が理解できませんでした。もしかしてテキストにタイプミスがありますか？トピックの最初の投稿のみが取得できるという意味でしょうか？

.json 拡張子を用いた 2 番目の選択肢について、トピック ID や他のエントリを利用した代替 URL はありますか？トピックタイトルを知る必要なく、よりプログラム的に会話の JSON を取得できる方法があれば教えてください。

pfaffman · 2021 年 9 月 15 日午前 12:38

SQLクエリを試しましたか？エラーはありましたか？編集：確認しました。そのクエリはトピック内のすべての投稿を返します。

トピックIDのみで任意のトピックを取得できます。

https://meta.discourse.org/t/-/202351.json

Wall-E · 2021 年 9 月 15 日午後 1:03

クエリ自体は問題ありませんでした。実際には何を提供するかというご説明を私が誤解していただけです。ご確認いただきありがとうございます。これらの解決策は非常に優れています。

トピック		返信	表示
Does Discourse support export conversations as an organized bulk of data? Feature	4	1124	2021 年 2 月 21 日
Exporting all Topic titles and IDs? Development	1	1553	2018 年 1 月 22 日
Exporting all Forum Posts for Manual Upload into External LLMs? Support ai	1	279	2025 年 1 月 27 日
Discourse Public Data Dump Developer Guides	1	1153	2025 年 5 月 13 日
Saving a Conversation Support	9	1031	2021 年 11 月 3 日

すべての会話をファイルと構造化データにダンプする

関連トピック