Public data dumps

I’d like to propose a public data export feature similar to Stack Exchange’s. This is not the same as the backup feature, because it requires sanitizing all private user data first. Both JSON and HTML export formats would be great.

This is useful for:

  • CC-licensed content to be made available more easily
  • users to feel more comfortable knowing that the site can’t suddenly disappear with all their content
  • data analysis, etc.

Let me know what you think.

5 „Gefällt mir“

Sounds like a great idea, would you like to work on something like this?

1 „Gefällt mir“

I would rather see the individual download button on the user page working first.

2 „Gefällt mir“

Maybe these are related. E.g. the functionality provides filtering options during the export process. Export content from these users, these topics, these keywords etc.

1 „Gefällt mir“

This would be great!

Did this feature ever get built? What’s the best way to provide public exports of a site?

Da ChatGPT die Welt der Bots und KI stärker in den Mittelpunkt gerückt hat, werden nun vermehrt Erwähnungen laut, die Daten aus einem Discourse-Forum als Trainingsdaten verwenden wollen. Daher schien dieses Thema eine von zwei Möglichkeiten dafür zu sein, die andere ist die Discourse Rest API.

Ich weiß, dass Administratoren die Möglichkeit haben, ein Backup zu erstellen und die Daten dann zu bereinigen. Ein bekannter Standard wäre jedoch vorzuziehen.

Können wir einen aktuellen Stand dazu bekommen, auch wenn es nur heißt, dass sich seit dem letzten Mal nichts geändert hat. :slightly_smiling_face:

2 „Gefällt mir“

Das ist jetzt auf unserer Roadmap für das KI-Team. :smiley:

3 „Gefällt mir“

Schön zu sehen, dass sich Discourse in die richtige Richtung bewegt, sehr traurig für den kleinen Vogel.

1 „Gefällt mir“