Public data dumps

I’d like to propose a public data export feature similar to Stack Exchange’s. This is not the same as the backup feature, because it requires sanitizing all private user data first. Both JSON and HTML export formats would be great.

This is useful for:

  • CC-licensed content to be made available more easily
  • users to feel more comfortable knowing that the site can’t suddenly disappear with all their content
  • data analysis, etc.

Let me know what you think.

5 curtidas

Sounds like a great idea, would you like to work on something like this?

1 curtida

I would rather see the individual download button on the user page working first.

2 curtidas

Maybe these are related. E.g. the functionality provides filtering options during the export process. Export content from these users, these topics, these keywords etc.

1 curtida

This would be great!

Did this feature ever get built? What’s the best way to provide public exports of a site?

Agora que o ChatGPT colocou o mundo dos bots e da IA mais em evidência, começamos a ver menções ao uso de dados de um fórum Discourse como dados de treinamento. Como tal, este tópico parecia uma de duas possibilidades para isso, a outra sendo a API REST do Discourse.

Sei que os administradores têm a capacidade de fazer um backup e, em seguida, higienizar os dados, mas um padrão conhecido seria preferível.

Podemos ter um status atual sobre isso, mesmo que seja apenas, nenhuma mudança desde a última vez. :slightly_smiling_face:

2 curtidas

Este está em nosso roteiro para a equipe de IA agora. :smiley:

3 curtidas

Fico feliz em ver que o Discourse está indo na direção certa, muito triste pelo passarinho.

1 curtida