Alle Konversationen in einer Datei und strukturierten Daten speichern

Wall-E · 1. September 2021 um 14:59

Diese Frage ähnelt dieser hier: Does Discourse support export conversations as an organized bulk of data?

Wir suchen jedoch nach einer Möglichkeit, NLP auf allen Gesprächen unserer Discourse-Seite durchzuführen. Jemand in unserem Team fragte, ob dies auf niedriger Ebene im Backend durchgeführt werden könnte, z. B. durch Exportieren der Datenbank, aber ohne die Tabelle, mit etwas wie pg_dump --schema-only. Ich habe nicht ganz verstanden, was mein Kollege meinte, aber ich dachte, vielleicht könntest du es.

pfaffman · 1. September 2021 um 15:02

Wenn du selbst gehostet bist, können sie den Befehl pg_dump ausführen, von dem sie glauben, dass er hilfreich ist.

Du kannst Daten auch in verschiedenen Formaten mit dem Data Explorer Plugin exportieren.

Wall-E · 1. September 2021 um 20:44

Dieses Plugin scheint den größten Teil dessen zu bieten, wonach wir suchen! Danke!

Wall-E · 14. September 2021 um 22:40

Also habe ich das Plugin installiert und mir alle Abfragen unter (Superseded) What cool data explorer queries have you come up with? angesehen, aber es gibt nichts, was die tatsächlichen Gespräche exportieren kann. Zum Beispiel habe ich nach den 100 aktivsten Themen gefragt. Ich erhalte Datenbank-Einträge mit Themen-IDs (siehe Screenshot), aber keine Gespräche. Liegt das daran, dass das Plugin nur dazu dient, Daten aus der Datenbank zu extrahieren und nicht die Gespräche selbst abruft? Falls das zutrifft, gibt es eine Möglichkeit, die aus der Datenbank extrahierten Informationen zu nutzen, um die Gespräche in JSON-Dateien abzurufen, deren Themen-IDs die vom Plugin extrahierten IDs sind?

pfaffman · 14. September 2021 um 23:35

 SELECT * FROM posts where topic_id=425

Das liefert dir die Beiträge des ersten Themas in deiner Abfrage (vorausgesetzt, ich kann auf diesem Handy tippen).

Aber wenn du JSON möchtest, könntest du etwas wie Folgendes tun:

  https://meta.discourse.org/t/dump-all-conversations-in-a-file-and-structured-data/202351.json

Wall-E · 15. September 2021 um 00:17

Ich habe deine erste Option nicht verstanden – vielleicht ein Tippfehler in deinem Text? Meintest du, dass ich nur den ersten Beitrag des Themas erhalte?

Bezüglich der zweiten Option mit der .json-Erweiterung: Gibt es eine alternative URL, die die topic_id oder einen anderen Eintrag verwendet, um auf programmatische Weise das Gespräch als JSON abzurufen, ohne den Titel des Themas kennen zu müssen?

pfaffman · 15. September 2021 um 00:38

Hast du die SQL-Abfrage schon ausprobiert? Gab es einen Fehler? Edit: Ich habe es geprüft. Diese Abfrage gibt alle Beiträge in einem Thema zurück.

Du kannst jedes Thema nur mit der Themen-ID abrufen.

https://meta.discourse.org/t/-/202351.json

Wall-E · 15. September 2021 um 13:03

Die Abfrage war in Ordnung, ich habe deine Erklärung darüber, was sie tatsächlich liefert, nur missverstanden. Danke, dass du noch einmal nachgeprüft hast. Das sind großartige Lösungen.

Thema		Antworten	Aufrufe
Does Discourse support export conversations as an organized bulk of data? Feature	4	1124	21. Februar 2021
Exporting all Topic titles and IDs? Development	1	1552	22. Januar 2018
Exporting all Forum Posts for Manual Upload into External LLMs? Support ai	1	278	27. Januar 2025
Discourse Public Data Dump Developer Guides	1	1153	13. Mai 2025
Saving a Conversation Support	9	1031	3. November 2021

Alle Konversationen in einer Datei und strukturierten Daten speichern

Verwandte Themen