Public data dumps

I’d like to propose a public data export feature similar to Stack Exchange’s. This is not the same as the backup feature, because it requires sanitizing all private user data first. Both JSON and HTML export formats would be great.

This is useful for:

  • CC-licensed content to be made available more easily
  • users to feel more comfortable knowing that the site can’t suddenly disappear with all their content
  • data analysis, etc.

Let me know what you think.

5 Me gusta

Sounds like a great idea, would you like to work on something like this?

1 me gusta

I would rather see the individual download button on the user page working first.

2 Me gusta

Maybe these are related. E.g. the functionality provides filtering options during the export process. Export content from these users, these topics, these keywords etc.

1 me gusta

This would be great!

Did this feature ever get built? What’s the best way to provide public exports of a site?

Ahora que ChatGPT ha acercado el mundo de los bots y la IA al centro de atención, se empieza a mencionar el uso de los datos de un foro de Discourse como datos de entrenamiento. Como tal, este tema parecía una de dos posibilidades para ello, la otra es la API REST de Discourse.

Sé que los administradores tienen la capacidad de obtener una copia de seguridad y luego limpiar los datos, se preferiría tener un estándar conocido.

¿Podemos obtener un estado actual sobre esto, aunque solo sea, sin cambios desde la última vez? :slightly_smiling_face:

2 Me gusta

Esto está en nuestra hoja de ruta para el equipo de IA ahora. :smiley:

3 Me gusta

Me alegra ver que Discourse va en la dirección correcta, qué pena por el pajarito.

1 me gusta