Discourse Public Data Dump

Angesichts des Aufkommens von KI und des Bedarfs an großen Datensätzen auf lokalen Entwicklungsmaschinen haben wir ein schnelles Muster zusammengestellt, um eine „funktionsfähige“ Kopie aller öffentlichen (für anonyme Benutzer sichtbaren) Daten aus einem Discourse-Forum zu erhalten.

Die Dokumentation wird hier auf dem neuesten Stand gehalten:

Warum Sie sich dafür interessieren sollten?

  • Sie möchten eine lokale Datenbank mit VIELEN Themen
  • Sie möchten KEINE persönlichen Daten auf Ihrem System haben

Dies ist noch in einem sehr groben Zustand, aber es ist für erste Experimente brauchbar und bietet Ihnen ein sehr bevölkerungsreiches lokales Setup.


Dieses Dokument unterliegt der Versionskontrolle – schlagen Sie Änderungen auf GitHub vor.

21 „Gefällt mir“

Hallo, danke für diese Arbeit, ich bin ziemlich neu bei der Discourse-API. Aber ich möchte es ausprobieren. Aus der Read-me-Datei scheint es, dass die topic_query und die post_query die wichtigsten Dokumente in diesem Repo sind. Weißt du, ob wir diese Dateien anpassen können, um sie an unseren gewünschten Dump anzupassen? Zum Beispiel möchten wir nur Themen aus einer bestimmten Kategorie oder mit Tags dumpen. danke