Migration einer Mailingliste zu Discourse (mbox, Listserv, Google Groups usw)

justin · 8. Januar 2021 um 16:34

[quote=“larsoner, Beitrag: 178, Thema: 79773”]
Es wäre großartig, wenn diese Nutzer als „gestaged

Jonathan5 · 14. Mai 2021 um 12:23

Die Mailman-2-Liste, die ich für den Import nach Discourse in Betracht ziehe, hatte (für einen Teil ihrer Existenz) die Einstellung from_is_list auf Munge From gesetzt, sodass der „From:

gerhard · 14. Mai 2021 um 12:33

Es verwendet den From:-Header.

Jonathan5 · 14. Mai 2021 um 12:36

Vielen Dank für die schnelle Antwort! Wie aufwendig wäre es, das zu ändern? Nicht unbedingt offiziell – das könnte zwar anderen helfen –, sondern einfach nur, damit ich das Skript vor der Ausführung selbst anpassen kann. Ich kenne noch kein Ruby (noch nicht!), aber wenn es nur darum geht, einen Doppelpunkt durch ein Leerzeichen zu ersetzen…

gerhard · 14. Mai 2021 um 12:46

Es ist keine einfache Änderung, aber sie sollte machbar sein. Du musst sie nicht unbedingt im Import-Skript implementieren. Wenn du eine andere Skriptsprache kennst, ist es sicher nicht allzu schwer, die From:-Header in den mbox-Dateien vor dem Start des Imports zu aktualisieren…

Aber du kannst es gerne auch im Import-Skript beheben. Ein PR ist willkommen!
Ein guter Ausgangspunkt für die Korrektur des Headers sollte die each_mail-Methode sein…

github.com/discourse/discourse

script/import_scripts/mbox/support/indexer.rb

e7892df10


      
          def each_mail(filename)
            raw_message = +''
            first_line_number = 1
            last_line_number = 0
          
            each_line(filename) do |line|
              if line.scrub =~ @split_regex
                if last_line_number > 0
                  yield raw_message, first_line_number, last_line_number
                  raw_message = +''
                  first_line_number = last_line_number + 1
                end
              else
                raw_message << line
              end
          
              last_line_number += 1
            end
          
            yield raw_message, first_line_number, last_line_number if raw_message.present?
          end

Jonathan5 · 14. Mai 2021 um 13:26

Cheers. Es sieht so aus, als ob dies derzeit die Entscheidung trifft, basierend auf den Zeilen 69–70 von indexer.rb:

parsed_email = receiver.mail
from_email, from_display_name = receiver.parse_from_field(parsed_email)

Wäre es an dieser Stelle möglich, die erste Zeile der Mbox-E-Mail (also die Zeile „From [E-Mail-Adresse] [Datum Uhrzeit]") aus parsed_email zu beziehen und die E-Mail-Adresse daraus zu extrahieren?

gerhard · 14. Mai 2021 um 13:28

Nein, diese Zeile wird gefiltert, wenn der MBox in einzelne Nachrichten aufgeteilt wird. Sie müssen diesen Wert in der Methode each_mail speichern, um ihn später verwenden zu können.

Jonathan5 · 14. Mai 2021 um 21:22

Ich hatte etwas Spaß beim Versuch, das zu lösen, bevor mir auffiel, dass Mailman die E-Mails im mbox-Format in ihrer ursprünglichen, unveränderten Form speichert. Das bedeutet, dass die Zeile „From:

gerhard · 14. Mai 2021 um 21:31

Nun, nennen wir es fast…

Jonathan5 · 14. Mai 2021 um 21:39

Haha… “Du sagst mir also, es gibt eine Chance!?”

dachary · 10. Juni 2021 um 15:45

Nach einem erfolgreichen Import von Mail-Archiven (mbox) werden in den Nachrichten-E-Mails Adressen angezeigt, die von Gmane oder dem Mailman2-Archivserver normalerweise verschleiert worden wären. Dies ermöglicht es Bots, diese Adressen zu sammeln, und ich suche nach einer Möglichkeit, dies zu verhindern.

Globales Entfernen von E-Mails in den Beiträgen (vielleicht über ein Anzeig-Plugin?)
Eine bereits vorhandene Site-Einstellung, die das erledigt
Eine andere Idee?

Vielen Dank im Voraus für eure Hilfe!

Jonathan5 · 5. Juli 2021 um 19:04

Ist das eine Entweder-oder-Frage?

Als ich versucht habe, mein MM2-MBox-Verzeichnis nach MM3 zu importieren, wurden etwa ein Viertel der E-Mails zu Waisen (Antworten wurden fälschlicherweise als Beginn neuer Threads behandelt), weil sie nicht die richtigen Header hatten. Pipermail in MM2 kann das Archiv über das Betrefffeld strukturieren (falls kein Message-ID-Header oder wie auch immer der andere Header heißt – ich habe es vergessen), aber beim letzten Check ignoriert Postorius in MM3 das Betrefffeld. Idealerweise würde dein Skript also das Gleiche tun wie Pipermail und bei meiner Liste größtenteils das Richtige treffen

Außerdem – wenn E-Mails, wie oben erwähnt, durcheinander importiert werden, gibt es dann eine Möglichkeit in Discourse, das zu beheben? Oder ist die einzige Antwort, index_only zu versuchen und entweder Header zur MBox-Datei hinzuzufügen oder die index.db wie im unten zitierten Beitrag vorgeschlagen neu zu ordnen?

Danke.

gerhard · 14. Juli 2021 um 08:47

Ja, das ist es.

Nicht wirklich. Nun, man könnte Beiträge verschieben, aber das ist selbst mit Automatisierung mühsam.

Ich denke, das ist der beste Weg, um dein Problem zu lösen, es sei denn, du fühlst dich wohler damit, am Import-Skript zu arbeiten und einen hybriden Modus hinzuzufügen, der nach Message-ID und Betreff gruppiert, falls erstere fehlt.

gerhard · 6. Oktober 2021 um 17:38

Der Import aus Google Groups ist derzeit defekt, da Google die Benutzeroberfläche geändert und das AJAX-Crawling-Verfahren entfernt hat, das sie bereits 2015 als veraltet deklariert hatten.

Hat es jemand bereits geschafft, Google Takeout zum Exportieren von mbox-Dateien zu nutzen?

Anjana_Raghavendra_P · 30. Oktober 2021 um 15:28

Hallo,

wie können wir dies nutzen, um Google Groups in eine SaaS-Discourse-Instanz statt in eine On-Premise-Instanz zu importieren?

pfaffman · 30. Oktober 2021 um 19:42

Wenn Sie ein Jahr lang Business-Hosting bezahlen, erledigen sie das kostenlos. Andernfalls müssen Sie es auf Ihrem eigenen Server durchführen, das Backup auf Ihre Instanz hochladen und den Support per E-Mail kontaktieren, um eine Wiederherstellung zu bitten.

Das Google-Gruppenskript kann bei der korrekten Einrichtung der Authentifizierung etwas zickig sein. Beim letzten Mal, als ich es verwendet habe, musste ich am Login-Endpunkt herumbasteln, damit es funktionierte.

Anjana_Raghavendra_P · 31. Oktober 2021 um 13:00

Erinnerst du dich an die Änderung, die du vorgenommen hast, damit die Anmeldung funktioniert? Ich erhalte den folgenden Fehler, obwohl ich dieselbe Erweiterung verwendet habe, die in den ersten Schritten zur Generierung der Cookie-Datei erwähnt wurde. Übrigens arbeite ich mit einer privaten Domänengruppe.

Anmeldung läuft...
2021-10-31 12:54:41 WARN Selenium [DEPRECATION] [:browser_options] :options als Parameter für die Initialisierung des Treibers ist veraltet. Verwende stattdessen :capabilities mit einem Array von capabilities/options, falls erforderlich.
Traceback (most recent call last):
        31: from script/import_scripts/google_groups.rb:293:in `\u003cmain\u003e'
        30: from script/import_scripts/google_groups.rb:237:in `crawl'
        29: from script/import_scripts/google_groups.rb:181:in `login'
        28: from script/import_scripts/google_groups.rb:196:in `add_cookies'
        27: from script/import_scripts/google_groups.rb:196:in `each'
        26: from script/import_scripts/google_groups.rb:200:in `block in add_cookies'
        25: from /usr/local/lib/ruby/gems/2.7.0/gems/selenium-webdriver-4.0.3/lib/selenium/webdriver/common/manager.rb:61:in `add_cookie'
        24: from /usr/local/lib/ruby/gems/2.7.0/gems/selenium-webdriver-4.0.3/lib/selenium/webdriver/remote/bridge.rb:349:in `add_cookie'
#0 0x557491640f93 \u003cunknown\u003e: ungültige Cookie-Domäne: Cookie 'domain' stimmt nicht überein (Selenium::WebDriver::Error::InvalidCookieDomainError)

gerhard · 31. Oktober 2021 um 13:37

Es tut mir leid, aber das Beheben des Login-Problems reicht nicht aus.

anon73664359 · 31. Oktober 2021 um 13:44

Hat das neuere Redesign etwas behoben?

gerhard · 31. Oktober 2021 um 13:49

Nein, es sei denn, sie haben die Funktion in den letzten 25 Tagen wieder hinzugefügt. Ich denke nicht, dass sie das tun werden, also muss der Scraper komplett überarbeitet werden.

Thema		Antworten	Aufrufe
Yahoo Groups Importation Errors Migration	6	1434	19. Dezember 2019
Migrate a phpBB3 forum to Discourse Migrating to Discourse how-to	464	101825	4. September 2025
Migration from Yahoo! Groups Migration	23	6749	4. November 2019
Migrate a XenForo forum to Discourse Sysadmins how-to	90	21319	25. Februar 2025
[bounty] Google+ (private ) communities: export screenscraper + importer Marketplace	99	8820	25. April 2019

Migration einer Mailingliste zu Discourse (mbox, Listserv, Google Groups usw)

Verwandte Themen