[quote=“larsoner, Beitrag: 178, Thema: 79773”]
Es wäre großartig, wenn diese Nutzer als „gestaged
Die Mailman-2-Liste, die ich für den Import nach Discourse in Betracht ziehe, hatte (für einen Teil ihrer Existenz) die Einstellung from_is_list auf Munge From gesetzt, sodass der „From:
Es verwendet den From:-Header.
Vielen Dank für die schnelle Antwort! Wie aufwendig wäre es, das zu ändern? Nicht unbedingt offiziell – das könnte zwar anderen helfen –, sondern einfach nur, damit ich das Skript vor der Ausführung selbst anpassen kann. Ich kenne noch kein Ruby (noch nicht!), aber wenn es nur darum geht, einen Doppelpunkt durch ein Leerzeichen zu ersetzen…
Es ist keine einfache Änderung, aber sie sollte machbar sein. Du musst sie nicht unbedingt im Import-Skript implementieren. Wenn du eine andere Skriptsprache kennst, ist es sicher nicht allzu schwer, die From:-Header in den mbox-Dateien vor dem Start des Imports zu aktualisieren…
Aber du kannst es gerne auch im Import-Skript beheben. Ein PR ist willkommen!
Ein guter Ausgangspunkt für die Korrektur des Headers sollte die each_mail-Methode sein…
Cheers. Es sieht so aus, als ob dies derzeit die Entscheidung trifft, basierend auf den Zeilen 69–70 von indexer.rb:
parsed_email = receiver.mail
from_email, from_display_name = receiver.parse_from_field(parsed_email)
Wäre es an dieser Stelle möglich, die erste Zeile der Mbox-E-Mail (also die Zeile „From [E-Mail-Adresse] [Datum Uhrzeit]") aus parsed_email zu beziehen und die E-Mail-Adresse daraus zu extrahieren?
Nein, diese Zeile wird gefiltert, wenn der MBox in einzelne Nachrichten aufgeteilt wird. Sie müssen diesen Wert in der Methode each_mail speichern, um ihn später verwenden zu können.
Ich hatte etwas Spaß beim Versuch, das zu lösen, bevor mir auffiel, dass Mailman die E-Mails im mbox-Format in ihrer ursprünglichen, unveränderten Form speichert. Das bedeutet, dass die Zeile „From:
Nun, nennen wir es fast… ![]()
Nach einem erfolgreichen Import von Mail-Archiven (mbox) werden in den Nachrichten-E-Mails Adressen angezeigt, die von Gmane oder dem Mailman2-Archivserver normalerweise verschleiert worden wären. Dies ermöglicht es Bots, diese Adressen zu sammeln, und ich suche nach einer Möglichkeit, dies zu verhindern.
- Globales Entfernen von E-Mails in den Beiträgen (vielleicht über ein Anzeig-Plugin?)
- Eine bereits vorhandene Site-Einstellung, die das erledigt
- Eine andere Idee?
Vielen Dank im Voraus für eure Hilfe!
Ist das eine Entweder-oder-Frage?
Als ich versucht habe, mein MM2-MBox-Verzeichnis nach MM3 zu importieren, wurden etwa ein Viertel der E-Mails zu Waisen (Antworten wurden fälschlicherweise als Beginn neuer Threads behandelt), weil sie nicht die richtigen Header hatten. Pipermail in MM2 kann das Archiv über das Betrefffeld strukturieren (falls kein Message-ID-Header oder wie auch immer der andere Header heißt – ich habe es vergessen), aber beim letzten Check ignoriert Postorius in MM3 das Betrefffeld. Idealerweise würde dein Skript also das Gleiche tun wie Pipermail und bei meiner Liste größtenteils das Richtige treffen ![]()
Außerdem – wenn E-Mails, wie oben erwähnt, durcheinander importiert werden, gibt es dann eine Möglichkeit in Discourse, das zu beheben? Oder ist die einzige Antwort, index_only zu versuchen und entweder Header zur MBox-Datei hinzuzufügen oder die index.db wie im unten zitierten Beitrag vorgeschlagen neu zu ordnen?
Danke.
Ja, das ist es.
Nicht wirklich. Nun, man könnte Beiträge verschieben, aber das ist selbst mit Automatisierung mühsam.
Ich denke, das ist der beste Weg, um dein Problem zu lösen, es sei denn, du fühlst dich wohler damit, am Import-Skript zu arbeiten und einen hybriden Modus hinzuzufügen, der nach Message-ID und Betreff gruppiert, falls erstere fehlt.
Der Import aus Google Groups ist derzeit defekt, da Google die Benutzeroberfläche geändert und das AJAX-Crawling-Verfahren entfernt hat, das sie bereits 2015 als veraltet deklariert hatten.
Hat es jemand bereits geschafft, Google Takeout zum Exportieren von mbox-Dateien zu nutzen?
Hallo,
wie können wir dies nutzen, um Google Groups in eine SaaS-Discourse-Instanz statt in eine On-Premise-Instanz zu importieren?
Wenn Sie ein Jahr lang Business-Hosting bezahlen, erledigen sie das kostenlos. Andernfalls müssen Sie es auf Ihrem eigenen Server durchführen, das Backup auf Ihre Instanz hochladen und den Support per E-Mail kontaktieren, um eine Wiederherstellung zu bitten.
Das Google-Gruppenskript kann bei der korrekten Einrichtung der Authentifizierung etwas zickig sein. Beim letzten Mal, als ich es verwendet habe, musste ich am Login-Endpunkt herumbasteln, damit es funktionierte.
Erinnerst du dich an die Änderung, die du vorgenommen hast, damit die Anmeldung funktioniert? Ich erhalte den folgenden Fehler, obwohl ich dieselbe Erweiterung verwendet habe, die in den ersten Schritten zur Generierung der Cookie-Datei erwähnt wurde. Übrigens arbeite ich mit einer privaten Domänengruppe.
Anmeldung läuft...
2021-10-31 12:54:41 WARN Selenium [DEPRECATION] [:browser_options] :options als Parameter für die Initialisierung des Treibers ist veraltet. Verwende stattdessen :capabilities mit einem Array von capabilities/options, falls erforderlich.
Traceback (most recent call last):
31: from script/import_scripts/google_groups.rb:293:in `\u003cmain\u003e'
30: from script/import_scripts/google_groups.rb:237:in `crawl'
29: from script/import_scripts/google_groups.rb:181:in `login'
28: from script/import_scripts/google_groups.rb:196:in `add_cookies'
27: from script/import_scripts/google_groups.rb:196:in `each'
26: from script/import_scripts/google_groups.rb:200:in `block in add_cookies'
25: from /usr/local/lib/ruby/gems/2.7.0/gems/selenium-webdriver-4.0.3/lib/selenium/webdriver/common/manager.rb:61:in `add_cookie'
24: from /usr/local/lib/ruby/gems/2.7.0/gems/selenium-webdriver-4.0.3/lib/selenium/webdriver/remote/bridge.rb:349:in `add_cookie'
#0 0x557491640f93 \u003cunknown\u003e: ungültige Cookie-Domäne: Cookie 'domain' stimmt nicht überein (Selenium::WebDriver::Error::InvalidCookieDomainError)
Es tut mir leid, aber das Beheben des Login-Problems reicht nicht aus.
Hat das neuere Redesign etwas behoben?
Nein, es sei denn, sie haben die Funktion in den letzten 25 Tagen wieder hinzugefügt. Ich denke nicht, dass sie das tun werden, also muss der Scraper komplett überarbeitet werden.