改进 Mailman 邮件解析

supermathie · 2023 年1 月 26 日 22:50

我们在一些使用 Discourse 来镜像公共邮件列表的论坛上注意到，一些帖子被错误地归属给用户：

image842×671 44.4 KB

来自：[ruby-talk:444110] exif - photo metadata - ruby-talk - Ruby Mailing List Mirror

在这种情况下，Discourse 首先创建了一个名为“Austin Ziegler via ruby-talk”的用户，其电子邮件地址与列表提交地址匹配，而这正是显示在每个类似帖子上的信息。

image1160×959 109 KB

来自：https://community.nanog.org/t/txt-att-net-outage/56955/4

在这种情况下，Discourse 首先创建了一个名为“Mailman”的用户，其电子邮件地址与列表提交地址匹配。

经调查，我们的邮件解析有时不正确。原因是，为了符合 DMARC 标准，Mailman有时会将其自身添加到 From 标头，并将原始发件人放入 reply-to：

To: Ryan Davis via ruby-talk
X-MailFrom: tom@tomsdomain.com
X-Mailman-Version: 3.3.3
Reply-To: Ruby users <ruby-talk@ml.ruby-lang.org>
From: Tom Reilly via ruby-talk <ruby-talk@ml.ruby-lang.org>
Cc: Tom Reilly <tom@tomsdomain.com>

To: Jared Mauch <jared@jaredsdomain.com>
X-BeenThere: nanog@nanog.org
X-Mailman-Version: 2.1.39
From: Owen DeLong via NANOG <nanog@nanog.org>
Reply-To: Owen DeLong <owen@owensdomain.com>
Cc: nanog <nanog@nanog.org>

但当不需要更改时，它会保持不变：

To: Jon Lewis <jlewis@jonsdomain.org>
X-BeenThere: nanog@nanog.org
X-Mailman-Version: 2.1.39
From: William Herrin <bill@billsdomain.us>
Cc: nanog@nanog.org

看来这里有很多不同的行为选项，因此我们希望提出一个算法来正确解析 Mailman 在所有情况下发出的内容。

可能还有其他选项，例如 Mailman 可以将未更改的消息直接发布到 Discourse 实例，但这些设置更复杂，并且可能并非对所有人可用。

这是其中一个算法的开头：

如果 mailman-version < 3
- 如果以下任一条件成立：
  - From 地址匹配 List-Id
  - From 地址匹配 List-Post
  - From 地址匹配 X-BeenThere
- 则使用 Reply-To 作为 From
如果 mailman-version >= 3
- 如果 X-MailFrom 存在
  - 使用 From 标头中的名称，去除 /via .*/
  - 使用 X-MailFrom 中的电子邮件

此外，在完成所有这些工作后，是否有可能通过一个 rake 任务来使用这个新逻辑重新处理现有的帖子（可能只处理与错误用户匹配的帖子）？

zogstrip · 2023 年5 月 17 日 23:29

github.com/discourse/discourse

FIX: improve mailman email parsing

main ← improve-mailman-email-parsing

opened 11:13PM - 17 May 23 UTC

ZogStriP

+226 -101

https://meta.discourse.org/t/improving-mailman-email-parsing/253041 When mirr…oring a public mailling list which uses mailman, there were some cases where the incoming email was not associated to the proper user. As it happens, for various (undertermined) reasons, the email from the sender is often not in the `From` header but can be in any of the following headers: `Reply-To`, `CC`, `X-Original-From`, `X-MailFrom`. It might be in other headers as well, but those were the ones we found the most reliable. There's also a new `emails:fix_mailman_users` rake task to fix wrongfully associated users.

要点是，我提出了一种适用于所有（我所见过的）版本的算法。

从 List-Post 或 X-BeenThere 标头中获取邮件列表电子邮件地址
发件人的邮件将在以下任何标头中：From、Reply-To、X-MailFrom 或 X-Original-From。因此，遍历这些标头，并返回第一个与邮件列表电子邮件地址不匹配的。

gerhard · 2023 年5 月 22 日 09:24

这似乎效果很好！
我使用了 rake emails:fix_mailman_users 来修复 https://rubytalk.org/ 上所有被错误归属给错误用户的帖子。

gerhard · 2023 年5 月 24 日 09:25

该主题在上次回复后 2 天自动关闭。不再允许新回复。

话题		回复	浏览量
Working on a mailman2 to discourse migration script Support	12	1153	2021 年6 月 12 日
The mailing list mode email address book trap Support	6	857	2021 年12 月 9 日
Confusion between Reply To and Reply List in email responses UX	45	6092	2021 年10 月 13 日
Mail precedence header set to list Support	3	1020	2021 年2 月 15 日
Confused by Error Message From Reply-by-Email Support	26	3092	2020 年6 月 4 日

改进 Mailman 邮件解析

相关话题