Public data dumps

I’d like to propose a public data export feature similar to Stack Exchange’s. This is not the same as the backup feature, because it requires sanitizing all private user data first. Both JSON and HTML export formats would be great.

This is useful for:

  • CC-licensed content to be made available more easily
  • users to feel more comfortable knowing that the site can’t suddenly disappear with all their content
  • data analysis, etc.

Let me know what you think.

5 лайков

Sounds like a great idea, would you like to work on something like this?

1 лайк

I would rather see the individual download button on the user page working first.

2 лайка

Maybe these are related. E.g. the functionality provides filtering options during the export process. Export content from these users, these topics, these keywords etc.

1 лайк

This would be great!

Did this feature ever get built? What’s the best way to provide public exports of a site?

Теперь, когда ChatGPT вывел мир ботов и ИИ на первый план, всё чаще упоминается использование данных с форумов Discourse в качестве обучающих данных. В связи с этим данная тема кажется одним из двух возможных вариантов для таких целей, второй — Discourse Rest API.

Я знаю, что у администраторов есть возможность сделать резервную копию и затем обезличить данные, но наличие известного стандарта было бы предпочтительнее.

Можно ли получить актуальную информацию по этому вопросу, даже если ответ будет лишь: «с момента прошлого раза ничего не изменилось»? :slightly_smiling_face:

2 лайка

Это уже в нашем плане работы для команды ИИ. :smiley:

3 лайка

Рад, что Discourse движется в правильном направлении, так жаль за маленькую птичку.

1 лайк