Alle Forum-Posts für manuelles Hochladen in externe LLMs exportieren?

Ich muss einen Export oder ein Backup vorbereiten, das ich dann manuell in einen Perplexity.ai Workspace hochladen kann. Ich möchte alle Beiträge der gesamten Website einbeziehen. Die zulässigen Dateitypen sind:

.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx

Ich kann bis zu 50 Dateien mit jeweils 25 MB oder kleiner hochladen.

Ich benötige keine Bilder.

Was wäre die beste Methode?

(Auch wenn es nicht notwendig ist, aber wenn möglich, möchte ich, dass die exportierte(n) Datei(en) den Inhalt von benutzerhochgeladenen Dokumenten wie .pdf-Dateien in einem für LLMs lesbaren Format enthält/enthalten.)

Hat jemand Gedanken zur besten Vorbereitung eines solchen Exports?

Ich hoste selbst.

Hier ist, was ich bisher gefunden habe…

Ask.Discourse.com sagte...

Inhalte exportieren und Bilder ausschließen:

  1. Verwendung des Data Explorer Plugins (falls verfügbar):
    • Discourse’s Data Explorer Plugin ermöglicht es Ihnen, benutzerdefinierte SQL-Abfragen auszuführen, um verschiedene Datentypen im gewünschten Format zu extrahieren (z. B. JSON, CSV).
    • Beispielabfrage: Führen Sie eine Abfrage aus, um alle Beiträge und Themen zu exportieren. Dies liefert Ihnen strukturierte Daten.
  2. JSON-Export über API:
    • Jedes Thema oder jeder Beitrag auf Discourse kann programmatisch mit JSON exportiert werden, indem .json an seine URL angehängt wird.
    • Zum Beispiel:
https://<deine-discourse-site>/t/topic-title/<topic-id>.json
*   Wenn Sie diese Exporte für alle Themen auf der Website basierend auf den topic_ids programmatisch auslösen möchten, erhalten Sie die Konversationen in einzelnen `.json`-Dateien.
  1. Automatisierte Kommandozeilenoption (falls unterstützt):
    • Für selbst gehostete Websites können fortgeschrittene Benutzer direkt mit der Datenbank arbeiten, indem sie pg_dump-Befehle oder ähnliche Schritte zur Extraktion von Datenbankabfragen verwenden.
    • Gehostete Pläne erlauben jedoch nicht die direkte Ausführung dieser Tools.
  2. Vom Benutzer hochgeladene Dokumente (z. B. PDFs):
    • Leider wird das Zusammenführen des Inhalts von hochgeladenen Dokumenten direkt in .json oder ein anderes Ausgabeformat wie .txt nicht nativ unterstützt. Sie können die Dokumente jedoch separat herunterladen und lokal mit spezialisierten Tools parsen, um ihren Text in strukturierte Formate aufzunehmen.

Empfehlung für Dateitypen:

Angesichts Ihrer Upload-Beschränkungen:

  • Für die Textextraktion exportieren Sie .json- oder .csv-Dateien, da diese Formate strukturierte Beiträge und Themeninformationen am besten erfassen können.

Wenn zusätzliche Anpassungen erforderlich sind, lassen Sie es mich bitte wissen!

Weitere Details finden Sie in der Dokumentation des Data Explorer Plugins.

1 „Gefällt mir“

Daten-Explorer ist hier der richtige Ansatz:

Dies ist der Ansatz, den ich empfehlen würde:

4 „Gefällt mir“