HTML in Discourse importieren

Guten Tag,

Als Google Yahoo eingestellt wurde, exportierten die Administratoren einer bestehenden Gruppe alle Nachrichten in HTML. Anschließend luden sie alle HTML-Dateien in Groups.io hoch, und das war ihr Migrationsprozess.

Heute gibt es einige hundert dieser HTML-Dateien mit Titeln wie HtmlDigest001, die Hunderte von verschiedenen Themen pro Datei enthalten, und jedes Thema hat Dutzende von Nachrichten.

Ich habe mich mit Python-Skripten abgemüht, um Text, der nach Thema und Posting-Datum organisiert ist, in einzelne Word-Dokumente zu extrahieren, aber ohne Erfolg.

Ich habe mir nun überlegt, ob Discourse diese HTML-Dateien importieren und irgendwie in separate Nachrichten umwandeln könnte. Oder ob es ein Werkzeug gibt, das diese Aufgabe bewältigen kann.

Vielen Dank für Ihre Zeit und Hilfe.

Mit freundlichen Grüßen

Nun, alles ist möglich. Sie müssten etwas schreiben, das sie parst und zum Beispiel in eine Datenbank einfügt. Sie können sich einen der JSON- oder CSV-Importe ansehen. Das nokogiri-Gem kann dabei helfen.

2 „Gefällt mir“