Migrate a mailing list to Discourse (mbox, Listserv, Google Groups, etc)

justin · 08.Январь.2021 16:34:45

Вы смотрели в базу данных? Интуитивно кажется, что по какой-то причине поле электронной почты там создаётся некорректно, и поэтому его невозможно прочитать.

github.com/discourse/discourse

script/import_scripts/mbox/importer.rb

f6e87e1e5


      
          
            batches do |offset|
              rows, last_email = @database.fetch_users(last_email)
              break if rows.empty?
          
              next if all_records_exist?(:users, rows.map { |row| row['email'] })
          
              create_users(rows, total: total_count, offset: offset) do |row|
                {
                  id: row['email'],
                  email: row['email'],
                  name: row['name'],
                  trust_level: @settings.trust_level,
                  staged: @settings.staged,
                  active: !@settings.staged,
                  created_at: to_time(row['date_of_first_message'])
                }
              end
            end
          end

См. пункт 2.3 в исходном сообщении для проверки индексной базы данных.

Jonathan5 · 14.Май.2021 12:23:44

Список Mailman 2, который я рассматриваю для импорта в Discourse, в течение части своего существования имел настройку from_is_list равной Munge From, так что заголовок From: выглядел так:

From: Listname <listname-bounces@listdomain.com> On Behalf Of [Имя оригинального отправителя]

вместо

From: [Имя оригинального отправителя] <username@example.com>

Это заставило меня подумать, что импортер будет воспринимать каждое такое сообщение как исходящее от одного и того же пользователя (с адресом электронной почты listname-bounces@listdomain.com)… НО…

Начальная строка, обозначающая начало нового письма в файле mbox, всё ещё начинается с:

From username@example.com [Дата время группа]

(и архивы Hyperkitty также показывают адрес электронной почты оригинального отправителя в обычном виде).

Так что мой вопрос — берет ли скрипт импорта адрес отправителя из заголовка From: или из строки From ? Спасибо.

Я кратко обсуждал это в предыдущей теме: Working on a mailman2 to discourse migration script - #10 by dachary

gerhard · 14.Май.2021 12:33:04

Используется заголовок From:.

Jonathan5 · 14.Май.2021 12:36:28

Спасибо за быстрый ответ! Насколько сложно это изменить? Не обязательно официально — хотя это могло бы помочь другим, — но просто чтобы я мог изменить скрипт перед его запуском. Я пока не знаю Ruby, но если нужно просто заменить двоеточие на пробел…

gerhard · 14.Май.2021 12:46:29

Это не простое изменение, но оно выполнимо. Вам не обязательно реализовывать это в скрипте импорта. Если вы знаете другой язык скриптов, я уверен, что обновление заголовков From: в файлах mbox перед запуском импорта не составит большого труда…

Но, конечно, вы можете исправить это в скрипте импорта. PR приветствуется!
Хорошей отправной точкой для исправления заголовка должен стать метод each_mail…

github.com/discourse/discourse

script/import_scripts/mbox/support/indexer.rb

e7892df10


      
          def each_mail(filename)
            raw_message = +''
            first_line_number = 1
            last_line_number = 0
          
            each_line(filename) do |line|
              if line.scrub =~ @split_regex
                if last_line_number > 0
                  yield raw_message, first_line_number, last_line_number
                  raw_message = +''
                  first_line_number = last_line_number + 1
                end
              else
                raw_message << line
              end
          
              last_line_number += 1
            end
          
            yield raw_message, first_line_number, last_line_number if raw_message.present?
          end

Jonathan5 · 14.Май.2021 13:26:19

Спасибо. Похоже, что именно это сейчас определяет результат, исходя из строк 69–70 файла indexer.rb:

parsed_email = receiver.mail
from_email, from_display_name = receiver.parse_from_field(parsed_email)

Возможно ли в этот момент получить первую строку письма в формате mbox (то есть строку вида «From [адрес электронной почты] [дата и время]») из переменной parsed_email и извлечь оттуда адрес электронной почты?

gerhard · 14.Май.2021 13:28:15

Нет, эта строка фильтруется при разделении mbox на отдельные сообщения. Вам нужно сохранить это значение в методе each_mail, чтобы использовать его позже.

Jonathan5 · 14.Май.2021 21:22:46

Мне было интересно попробовать это сделать, прежде чем я заметил, что Mailman хранит письма в формате mbox в их первоначальном, неизменном виде, так что строка «From:» содержит тот же адрес отправителя, что и строка «From » во всех случаях, даже когда письмо отправлено «From: listname-bounces@listname.domain.com»).

У меня не было установленной среды разработки Discourse или даже Ruby, но я смог продвинуться с помощью https://rubular.com/, https://replit.com/languages/ruby (и DuckDuckGo). Если вы готовы взглянуть на это, буду благодарен, если вы сообщите, сработало бы это (или почти сработало), если бы это потребовалось…

    def each_mail(filename)
      raw_message = +''
      first_line_number = 1
      last_line_number = 0

      each_line(filename) do |line|
        if line.scrub =~ @split_regex
          if last_line_number > 0
            # Мы перешли к началу СЛЕДУЮЩЕГО письма
            yield raw_message, first_line_number, last_line_number
            raw_message = +''
            first_line_number = last_line_number + 1
          else
            # Мы перешли к началу ЭТОГО письма, поэтому получаем адрес электронной почты
            new_email = line.match(/^From (\S+@\S+).*/).captures
          end
        else
          raw_message << line
        end

        last_line_number += 1
      end

      # Получаем старый адрес электронной почты (строка «From:»)
      old_email = raw_message.match(/^From: .*</(\S+@\S+)>/).captures

      # Заменяем адрес «From » в строке «From:»
      raw_message = raw_message.sub(old_email, new_email)

      yield raw_message, first_line_number, last_line_number if raw_message.present?
    end

gerhard · 14.Май.2021 21:31:25

Что ж, назовём это почти…

Jonathan5 · 14.Май.2021 21:39:07

Ха-ха… «Так что ты говоришь мне, что есть шанс!?»

dachary · 10.Июнь.2021 15:45:23

После успешного импорта почтовых архивов (mbox) в содержимом сообщений будут отображаться адреса электронной почты, которые ранее были скрыты (обфусцированы) серверами Gmane или mailman2. Это позволяет ботам, собирающим адреса, извлекать их, и я ищу способ избежать этого.

Глобальное удаление адресов электронной почты из сообщений (возможно, с помощью плагина отображения?)
Существует ли какая-либо настройка сайта, которая уже решает эту задачу?
Есть ли другая идея?

Заранее спасибо за вашу помощь!

Jonathan5 · 05.Июль.2021 19:04:32

Это взаимоисключающий выбор?

Когда я пытался импортировать свой ящик MM2 mbox в MM3, примерно четверть писем оказались «сиротами» (ответы ошибочно воспринимались как начало новых веток), потому что у них не было нужных заголовков. Pipermail в MM2 может структурировать архив по теме (если нет Message-ID или как там называется другой заголовок — не помню), но, насколько я помню, Postorius в MM3 игнорирует тему. Поэтому в идеале ваш скрипт должен делать то же самое, что и Pipermail, и в большинстве случаев правильно обрабатывать мой список

Также — если письма импортируются вперемешку, как указано выше, есть ли в Discourse способ это исправить? Или единственный выход — использовать index_only и либо добавить заголовки в файл mbox, либо пересобрать index.db, как предложено в цитируемом ниже посте?

Спасибо.

gerhard · 14.Июль.2021 08:47:59

Да, это так.

Не совсем. Ну, можно перемещать сообщения, но это утомительно, даже с автоматизацией.

Думаю, это лучший способ решить вашу проблему, если только вы не чувствуете себя комфортно, работая над скриптом импорта и добавляя какой-то гибридный режим, который группирует по Message-ID и теме, если первое отсутствует.

gerhard · 06.Октябрь.2021 17:38:14

Импорт из Google Groups в настоящее время не работает, так как Google изменил интерфейс и убрал схему AJAX-сканирования, которую они ещё в 2015 году объявили устаревшей.

Удалось ли кому-нибудь использовать Google Takeout для экспорта файлов mbox?

Anjana_Raghavendra_P · 30.Октябрь.2021 15:28:22

Здравствуйте,

Как мы можем использовать это для импорта групп Google в облачную версию Discourse, а не в локальную?

pfaffman · 30.Октябрь.2021 19:42:03

Если вы оплачиваете бизнес-хостинг на год, они сделают это бесплатно. В противном случае вы выполняете это на собственном сервере, загружаете резервную копию на свой экземпляр и пишете в службу поддержки, чтобы попросить их восстановить данные.

Скрипт для группы Google может быть капризным в настройке аутентификации. В прошлый раз, когда я его использовал, мне пришлось поиграть с конечной точкой входа в систему, чтобы заставить его работать.

Anjana_Raghavendra_P · 31.Октябрь.2021 13:00:37

Вы помните изменение, которое вы внесли, чтобы вход в систему заработал? Я получаю следующую ошибку, хотя использовал то же расширение, что указано в начальных шагах для создания файла с cookie. Кстати, я работаю с частной группой доменов.

Logging in...
2021-10-31 12:54:41 WARN Selenium [DEPRECATION] [:browser_options] :options as a parameter for driver initialization is deprecated. Use :capabilities with an Array of value capabilities/options if necessary instead.
Traceback (most recent call last):
        31: from script/import_scripts/google_groups.rb:293:in `<main>'
        30: from script/import_scripts/google_groups.rb:237:in `crawl'
        29: from script/import_scripts/google_groups.rb:181:in `login'
        28: from script/import_scripts/google_groups.rb:196:in `add_cookies'
        27: from script/import_scripts/google_groups.rb:196:in `each'
        26: from script/import_scripts/google_groups.rb:200:in `block in add_cookies'
        25: from /usr/local/lib/ruby/gems/2.7.0/gems/selenium-webdriver-4.0.3/lib/selenium/webdriver/common/manager.rb:61:in `add_cookie'
        24: from /usr/local/lib/ruby/gems/2.7.0/gems/selenium-webdriver-4.0.3/lib/selenium/webdriver/remote/bridge.rb:349:in `add_cookie'
#0 0x557491640f93 <unknown>: invalid cookie domain: Cookie 'domain' mismatch (Selenium::WebDriver::Error::InvalidCookieDomainError)

gerhard · 31.Октябрь.2021 13:37:50

Извините, но исправление входа недостаточно.

anon73664359 · 31.Октябрь.2021 13:44:50

Исправила ли более недавняя редизайн что-либо?

gerhard · 31.Октябрь.2021 13:49:33

Нет, если только они не вернули эту функцию за последние 25 дней. Я не думаю, что они это сделают, поэтому парсеру потребуется полная переработка.

Тема		Ответов	Просм.
Yahoo Groups Importation Errors Migration	6	1438	19.12.2019
Migrate a phpBB3 forum to Discourse Migrating to Discourse how-to	464	102348	04.09.2025
Migration from Yahoo! Groups Migration	23	6782	04.11.2019
Migrate a XenForo forum to Discourse Sysadmins how-to	90	21426	25.02.2025
[bounty] Google+ (private ) communities: export screenscraper + importer Marketplace	99	8886	25.04.2019

Migrate a mailing list to Discourse (mbox, Listserv, Google Groups, etc)

Связанные темы