Public data dumps

I’d like to propose a public data export feature similar to Stack Exchange’s. This is not the same as the backup feature, because it requires sanitizing all private user data first. Both JSON and HTML export formats would be great.

This is useful for:

  • CC-licensed content to be made available more easily
  • users to feel more comfortable knowing that the site can’t suddenly disappear with all their content
  • data analysis, etc.

Let me know what you think.

「いいね!」 5

Sounds like a great idea, would you like to work on something like this?

「いいね!」 1

I would rather see the individual download button on the user page working first.

「いいね!」 2

Maybe these are related. E.g. the functionality provides filtering options during the export process. Export content from these users, these topics, these keywords etc.

「いいね!」 1

This would be great!

Did this feature ever get built? What’s the best way to provide public exports of a site?

ChatGPT がボットと AI の世界をより中心に据えるようになった今、Discourse フォーラムのデータをトレーニング データとして使用することについての言及が見られるようになりました。そのため、このトピックは、もう一方の Discourse Rest API とともに、そのような可能性の 2 つのうちの 1 つであるように思われました。

管理者はバックアップを取得してデータをサニタイズする能力があることは知っていますが、既知の標準があれば好ましいです。

前回から変更がない場合でも、現在の状況を把握できますか? :slightly_smiling_face:

「いいね!」 2

これは現在、AIチームのロードマップにあります。:smiley:

「いいね!」 3

Discourse が正しい方向に向かっているのを見るのは嬉しいですが、小鳥にとってはとても悲しいことです。

「いいね!」 1