Public data dumps

I’d like to propose a public data export feature similar to Stack Exchange’s. This is not the same as the backup feature, because it requires sanitizing all private user data first. Both JSON and HTML export formats would be great.

This is useful for:

  • CC-licensed content to be made available more easily
  • users to feel more comfortable knowing that the site can’t suddenly disappear with all their content
  • data analysis, etc.

Let me know what you think.

5 « J'aime »

Sounds like a great idea, would you like to work on something like this?

1 « J'aime »

I would rather see the individual download button on the user page working first.

2 « J'aime »

Maybe these are related. E.g. the functionality provides filtering options during the export process. Export content from these users, these topics, these keywords etc.

1 « J'aime »

This would be great!

Did this feature ever get built? What’s the best way to provide public exports of a site?

Maintenant que ChatGPT a rapproché les bots et l’IA du devant de la scène, on commence à voir des mentions de l’utilisation des données d’un forum Discourse comme données d’entraînement. À ce titre, ce sujet semblait être l’une des deux possibilités, l’autre étant l’API REST de Discourse (https://meta.discourse.org/t/discourse-rest-api-documentation/22706).

Je sais que les administrateurs ont la possibilité de faire une sauvegarde puis d’assainir les données, avoir un standard connu serait préférable.

Pouvons-nous avoir un état actuel de la situation, même si ce n’est que « pas de changement depuis la dernière fois ». :slightly_smiling_face:

2 « J'aime »

Ceci est maintenant dans notre feuille de route pour l’équipe d’IA. :smiley:

3 « J'aime »

Ravi de voir que Discourse va dans la bonne direction, tellement triste pour le petit oiseau.

1 « J'aime »