Migration einer Mailingliste zu Discourse (mbox, Listserv, Google Groups usw)

saulshanabrook · 29. Dezember 2022 um 03:03

Vielen Dank für die Bereitstellung dieser Anleitung und des Import-Skripts! Ich habe es erfolgreich mit einer Google-Gruppe unter Verwendung von Google Takeout verwendet. Ich habe einfach die .mbox-Datei in das richtige Verzeichnis gelegt und das Skript ausgeführt.

Ich hatte eine Frage zum Import von E-Mails, die Eltern haben, die nicht in der .mbox enthalten sind. Zum Beispiel gibt es in unserer Gruppe viele Threads, die aus einer Weiterleitung einer E-Mail stammen, die nicht an die Gruppe gesendet wurde, oder indem die Gruppe mitten in einer Konversation zur Antwortliste hinzugefügt wurde, um sie einzubeziehen.

Derzeit scheint es beim Importieren so zu sein, als ob diese früheren E-Mails nicht vorhanden sind. Sie können sie finden, wenn Sie auf das E-Mail-Symbol klicken und die HTML-Datei anzeigen. Ich war neugierig, ob andere auf dieselbe Situation gestoßen sind und Lösungen dafür hatten. Ich könnte mir vorstellen, entweder die vorherige E-Mail-Kette in den Beitrag aufzunehmen oder zu versuchen, sie zu parsen und eine Reihe von Nachrichten daraus zu extrahieren und all diese hinzuzufügen.

pfaffman · 29. Dezember 2022 um 11:19

Sie müssten einen Weg finden, diese Nachrichten aus dem zitierten Text zu generieren und sie (wahrscheinlich mit Id-Headern) zur mbox-Datei hinzuzufügen, bevor Sie das Importskript ausführen.

Andro · 1. März 2023 um 05:27

Das ist wirklich ausgezeichnet. Aber ich habe einige Probleme mit E-Mails, die in Discourse eingehen, mit einer anfänglichen E-Mail und dann den Antworten im mbox-Format im selben Beitrag, nicht formatiert. Ich bin mir nicht sicher, was dies verursacht.

Die Frage ist, wie kann ich alle importierten E-Mails (20 Jahre lang) löschen, ohne die Ziel-Discourse-Instanz zu löschen und neu zu erstellen?

Andro · 1. März 2023 um 08:27

Mir ist bewusst, dass die empfohlene RAM-Anforderung 8 GB beträgt. Ich habe versucht, 20 Jahre an Beiträgen auf einer 2-GB-VM zu importieren, und sie lief eine Weile und stürzte mit der Meldung „killed“ ab. 8-GB-Maschinen bei Anbietern wie DigitalOcean sind (für mich) teuer. Gibt es eine Möglichkeit, dies mit weniger Arbeitsspeicher zu tun? Vielleicht in kleineren Stapeln importieren?

pfaffman · 2. März 2023 um 01:38

Vielleicht die Kategorien löschen und dann die zugehörigen benutzerdefinierten Themenfelder löschen.

Nein, ich glaube nicht, dass man auf einer kleinen Maschine viel importieren kann. Man könnte es auf einem Desktop versuchen, aber dann hat man Bandbreitenprobleme, um die Datenbank wieder ins Internet zu bekommen.

Andro · 10. März 2023 um 12:22

Ich weiß, dass in diesem Thread nicht viel los ist, aber es gelingt mir nicht, ihn richtig zum Laufen zu bringen. Viele der E-Mails im mbox-Format, die ich importiere, werden nicht richtig aufgeteilt. Die Von-Zeilen sehen so aus:

From MAILER-DAEMON Tue Nov 01 05:57:09 2022

Aber einige Nachrichten werden korrekt importiert, haben dann aber im selben Text rohe mbox-Format-Elemente, die mit der typischen Von-Zeile beginnen. Mit anderen Worten, sie werden nicht aufgeteilt. Ich sehe nicht, dass ich den Regex ändern muss, der die Aufteilung vornimmt, und ich kenne Ruby nicht, daher kann ich das Importskript nicht debuggen.

Ich weiß nicht, wie ich hier weitermachen soll. Es gibt 20 Jahre an Nachrichten zu importieren, daher kann ich die importierten Nachrichten nicht manuell durchgehen, um sie zu korrigieren. Kurz gesagt, dieses Skript funktioniert für mich nicht. Warum sollte ich der Einzige sein, dem das passiert?

pfaffman · 10. März 2023 um 12:44

Das passiert nicht nur dir. Mein erster bezahlter Discourse-Job bestand darin, monatelang alte mbox-Dateien zu bereinigen, die aus irgendeinem Grund, den ich nicht mehr in Erinnerung habe, von Hand bearbeitet worden waren.

Es klingt, als ob du dich mit dem Regex beschäftigen musst oder eine andere Möglichkeit finden musst, die fehlerhaften Nachrichten zu beheben. Eine Möglichkeit ist, ein anderes Werkzeug zu verwenden, um die Nachrichten in einzelne Dateien aufzuteilen.

Fwiw, ich habe mehrere Import-Skripte geschrieben, bevor ich Ruby kannte.

Jeder Import ist einzigartig. Bei 20 Jahren Daten ist es gut möglich, dass du auf verschiedene Probleme stößt, da sich die verschiedenen verwendeten Systeme im Laufe der Zeit geändert haben.

Andro · 11. März 2023 um 03:54

Darauf kannst du wetten. Das ist sicher.

MikeNolan · 15. März 2023 um 01:11

Ich möchte 20 Jahre Nachrichten aus meinem Mailman2-System in ein Archivverzeichnis importieren, aber ich möchte keine Benutzer-IDs (nicht einmal gestellte) dafür erstellen, da viele unserer Abonnenten weggezogen oder verstorben sind und dies viele Konten erstellen würde, die nur Platz beanspruchen würden.

Kann ich sie alle unter derselben Benutzer-ID (vielleicht ‘archive’) importieren?

Und das mag eine dumme Frage sein, aber da die Anwendung während des Importvorgangs ausgeschaltet ist, bedeutet dies, dass Benutzer, die sich für E-Mails über neue Beiträge angemeldet haben, nicht mit E-Mails über alle gerade geladenen Archive überflutet werden?

pfaffman · 15. März 2023 um 12:16

Sie können die Funktion import_users auskommentieren und alle Nachrichten werden dem System zugeordnet.

Sie werden nicht viel Speicherplatz sparen.

Keine Benutzer erhalten E-Mails, bis sie den Prozess „Passwort vergessen“ verwendet haben, um sich in ihr Konto einzuloggen. Wenn Sie diese Daten in eine bestehende Community importieren, dann erhalten die Benutzer Benachrichtigungen über die neuen Nachrichten, die durch das Importskript erstellt werden.

MikeNolan · 15. März 2023 um 17:11

Danke, ich habe mir das Importskript angesehen und festgestellt, dass ich den Abschnitt für neue Benutzer möglicherweise einfach deaktivieren kann. Das Testen steht auf meiner Liste.

Es geht nicht um Speicherplatz, sondern darum, möglicherweise Hunderte von vorbereiteten Benutzerkonten zu haben, die nie verwendet werden, also ist es eher ein Kopfplatz oder eine sehr lange Benutzerliste.

pfaffman · 15. März 2023 um 18:52

Sie kennen Ihre Nutzer, aber es scheint viel besser zu sein, Konten zu haben, die niemand nutzen wird, als nicht zu wissen, wer 20 Jahre lang Nachrichten gepostet hat.

MikeNolan · 18. März 2023 um 19:00

Das ist ein valider Punkt, Jay.

Ich kann die Datei import_mbox.sh nicht finden und wenn ich versuche, das Skript mbox.rb direkt auszuführen, erhalte ich eine Reihe von Ruby-Fehlern:

root@lists-import:/var/www/discourse/script/import_scripts# ruby mbox.rb mbox
fatal: detected dubious ownership in repository at ‘/var/www/discourse’
To add an exception for this directory, call:

    git config --global --add safe.directory /var/www/discourse

/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/zeitwerk-2.6.7/lib/zeitwerk/loader/callbacks.rb:25:in `on_file_autoloaded’: expected file /var/www/discourse/lib/freedom_patches/pluck_first.rb to define constant FreedomPatches::PluckFirst, but didn’t (Zeitwerk::NameError)

  raise Zeitwerk::NameError.new(msg, cref.last)

Adam_Monago · 22. März 2023 um 15:30

Hallo Leute. Was für eine tolle Anleitung. Vielen Dank an Gerhard und andere für ihre Beiträge.

Hat jemand dies für Lyris angepasst? Ich bin daran interessiert, eine historische Installation zu migrieren und möchte verstehen, ob sie bei einem ähnlichen Projekt besondere Bedenken hatten.

tpokorra · 14. August 2023 um 16:53

Ich musste Beiträge aus einer Mailingliste nach Discourse importieren und stieß auf zwei Probleme.

sqlite3 wurde nicht gefunden.
Ich konnte import_mbox.sh nicht finden.

Hier sind meine Lösungen:

sqlite3 installieren

Ich habe zu Gemfile hinzugefügt:

 gem "sqlite3", "~> 1.3", ">= 1.3.13"

dann ausgeführt:

cd discourse
bundle config set frozen false
bundler install

Import ausführen

cd discourse
RAILS_ENV=production bundle exec rails runner script/import_scripts/mbox.rb script/import_scripts/mbox/settings.yml

gerhard · 14. August 2023 um 18:27

Wahrscheinlich haben Sie den folgenden Schritt übersehen, der sich hinter “Regulärer Import” in 1.2. Vorbereiten des Docker-Containers verbirgt.

Michael_Sandler · 1. Juli 2024 um 19:52

Ich erhalte diesen can't modify frozen String Fehler. Kann mir jemand eine Lösung vorschlagen oder herausfinden, was ich falsch mache?

root@sajcf:~# /var/discourse/launcher stop app
x86_64 arch detected.
+ /usr/bin/docker stop -t 600 app
app
root@sajcf:~# /var/discourse/launcher enter import
x86_64 arch detected.
root@sajcf-import:/var/www/discourse# import_mbox.sh
Der mbox-Import wird gestartet...

Lädt vorhandene Gruppen...
Lädt vorhandene Benutzer...
Lädt vorhandene Kategorien...
Lädt vorhandene Beiträge...
Lädt vorhandene Themen...

Erstellt Index
Indiziert Dateien in /shared/import/data/jjcf
Indiziert /shared/import/data/jjcf/SAJCF.mbox

Indiziert Antworten und Benutzer

Erstellt Kategorien
/var/www/discourse/script/import_scripts/base.rb:447:in `strip!': can't modify frozen String: "jjcf" (FrozenError)
        from /var/www/discourse/script/import_scripts/base.rb:447:in `block in create_categories'
        from /var/www/discourse/script/import_scripts/base.rb:438:in `each'
        from /var/www/discourse/script/import_scripts/base.rb:438:in `create_categories'
        from /var/www/discourse/script/import_scripts/mbox/importer.rb:50:in `import_categories'
        from /var/www/discourse/script/import_scripts/mbox/importer.rb:34:in `execute'
        from /var/www/discourse/script/import_scripts/base.rb:47:in `perform'
        from script/import_scripts/mbox.rb:13:in `<module:Mbox>'
        from script/import_scripts/mbox.rb:11:in `<module:ImportScripts>'
        from script/import_scripts/mbox.rb:10:in `<main>'

pfaffman · 2. Juli 2024 um 13:08

Sie können googeln, wie man das löst. Ich denke, ein .dup könnte eine einfache Lösung sein.

User154574 · 12. August 2024 um 13:57

Um genauer zu sein, habe ich den Code erfolgreich geändert, was den Import ermöglichte, indem .dup in Zeile 447 der Datei /var/www/discourse/script/import_scripts/base.rb hinzugefügt wurde:

params[:name].dup.strip!

Eine Sache ist unklar: Wie kann ich in eine der Multisite-Seiten importieren?

Adam_Skalicky · 17. Dezember 2024 um 06:04

Hat jemand einen "can’t modify frozen String"-Fehler erhalten? Meine index.db wird zwar erstellt, aber beim Erstellen von Kategorien schlägt es fehl.

root@xxxxxxxxxx:/var/www/discourse# import_mbox.sh
Die mbox-Importierung wird gestartet...

Lade vorhandene Gruppen...

Lade vorhandene Benutzer...

Lade vorhandene Kategorien...

Lade vorhandene Beiträge...

Lade vorhandene Themen...

Index wird erstellt

Indiziere Dateien in /shared/import/data/xxxxx-xxxxxxx@xxxxxxx.com

Indiziere /shared/import/data/xxxxx-xxxxxxx@xxxxxxx.com/export.mbox

Indiziere Antworten und Benutzer

Erstelle Kategorien

/var/www/discourse/script/import_scripts/base.rb:447:in `strip!': **can't modify frozen String: \"xxxxx-xxxxxxx@xxxxxxx.com\" (****FrozenError****)**

from /var/www/discourse/script/import_scripts/base.rb:447:in `block in create_categories'

from /var/www/discourse/script/import_scripts/base.rb:438:in `each'

from /var/www/discourse/script/import_scripts/base.rb:438:in `create_categories'

from /var/www/discourse/script/import_scripts/mbox/importer.rb:50:in `import_categories'

from /var/www/discourse/script/import_scripts/mbox/importer.rb:34:in `execute'

from /var/www/discourse/script/import_scripts/base.rb:47:in `perform'

from script/import_scripts/mbox.rb:13:in `<module:Mbox>'

from script/import_scripts/mbox.rb:11:in `<module:ImportScripts>'

from script/import_scripts/mbox.rb:10:in `<main>'

Thema		Antworten	Aufrufe
Yahoo Groups Importation Errors Migration	6	1457	19. Dezember 2019
Migrate a phpBB3 forum to Discourse Migrating to Discourse how-to	464	103031	4. September 2025
Migration from Yahoo! Groups Migration	23	6858	4. November 2019
Migrate a XenForo forum to Discourse Sysadmins how-to	90	21709	25. Februar 2025
[bounty] Google+ (private ) communities: export screenscraper + importer Marketplace	99	9053	25. April 2019

Migration einer Mailingliste zu Discourse (mbox, Listserv, Google Groups usw)

sqlite3 installieren

Import ausführen

Verwandte Themen