人工驱动的复制粘贴垃圾信息

codinghorror · 2019 年6 月 8 日 20:02

Let us know if you’re still seeing this today.

jsha · 2019 年6 月 9 日 18:51

Yes, still seeing it.

For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.

mbauman · 2019 年8 月 23 日 14:48

我们也在自己的网站上看到了类似的情况——至少是它的前兆。到目前为止，我们的用户和工作人员都相当迅速地发现了那些格格不入的抄袭内容，并在垃圾发送者发布垃圾链接之前就将相关帖子标记为可疑。

不过，能否对首帖实现自动化检测呢？如果能自动标记那些包含现有帖子完全复制内容的新线程，那就太好了。

codinghorror · 2019 年8 月 23 日 23:35

目前不行，将一条帖子与_几乎每一条已发布的帖子_进行比对……成本相当高。

作为一般规则，对于新用户发布的任何奇怪且不合逻辑的帖子，都应持相当怀疑的态度。这通常能帮我识别出问题。

jsha · 2019 年8 月 30 日 01:33

这种方法在回复中效果很好，但在新建主题时效果稍差。由于我们的论坛提供技术支持，大多数新用户提出的问题看起来与其他已提出的问题非常相似（有时这些问题是从其他网站如 Reddit 复制的，不过也有很多是从我们自己的网站复制的）。

codinghorror · 2019 年8 月 30 日 01:59

是的，那些问题确实很难追踪。我自己在另一个 Discourse 上也见过几个。

它们是_完全_相同的副本，还是经过了某种修改？

mbauman · 2019 年8 月 30 日 05:29

在我们的案例中，正文几乎总是被原样复制。格式经常丢失，但并非总是如此。有时只是帖子的一部分被复制。此外，这些帖子也总是新线程。出于某种原因，标题有时相同，有时则不可思议地保留了原标题，只是在末尾附加了“name”一词。我同意这看起来像是人工操作——我认为有人正在手动执行复制粘贴，而这个过程是有损的。因此，在绝大多数情况下，简单的哈希检查是行不通的。

我们尚未看到这种方案真正得以实施，无论其具体目标是什么。有一次，我们错过了一则帖子长达 14 天，但之后并未有人跟进。我是通过发现另一个执行相同操作账号的共享 IP 才找到它的。同时，我们的垃圾邮件设置已调至非常宽松，因为即使存在这些奇怪的帖子，我们也几乎从未遇到过真正的垃圾邮件。TL0 用户可以立即发布外部链接和图片，也可以编辑帖子。那么，为什么要搞这套把戏呢？这一切都非常奇怪。

编辑： 啊，搞这套把戏的原因是他们不仅规避了自动垃圾邮件过滤器，还避开了活跃社区的眼球（和举报），因为除非编辑的是最新帖子，否则编辑不会将主题置顶。因此，若要奏效，他们不仅需要看起来无害，还需要引发回复。

jsha · 2019 年8 月 30 日 17:52

和 Matt 的情况一样，我们的帖子大多是完全相同的，但通常会丢失一些格式，或者只是帖子的一部分。我们主要在新增的讨论串中看到这类垃圾信息，有时也会在现有讨论串中出现离题的回复。

mnordhoff · 2019 年8 月 30 日 17:58

我记不清具体细节了，但我相信他们有时也会修改原始帖子中包含的链接或网址。我猜这是为了绕过新发帖者的链接数量限制，而且没人愿意为别人的网站做垃圾推广。

（后来在编辑垃圾内容时，他们会对原始链接进行更多修改。）

（编辑：三个马特！）

codinghorror · 2019 年9 月 7 日 10:04

好消息！我们添加了一项功能来解决这个问题——低信任等级的用户编辑帖子的时间更短。这应该有助于减少与编辑相关的捣乱行为。

如您所见，TL0 和 TL1 用户现在默认最多只能编辑 1 天内的帖子 @jsha @mnordhoff 和 @mbauman——你们或许可以进一步缩短这个时间。

mbauman · 2019 年9 月 7 日 17:27

谢谢！我还修改了一个数据探索器查询，以提供一个供管理员偶尔审阅的“陈旧编辑”表格：

SELECT
    p.id AS post_id,
    p.updated_at,
    (p.updated_at - p.created_at) AS staleness,
    u.trust_level,
    (p.cooked LIKE '%href%') AS has_links
FROM posts p
    JOIN users u
        ON u.id = p.user_id
    JOIN topics t
        ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
    AND p.self_edits > 0
    AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
    AND p.deleted_at IS NULL
    AND t.deleted_at IS NULL
    AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500

jsha · 2019 年11 月 6 日 00:13

太棒了！非常感谢。我们将“帖子编辑时间限制”延长至 1 天（1440 分钟），并暂时保持这一设置。不过，我刚刚将“tl2 帖子编辑时间限制”延长至 30 天（43200 分钟），这应该会让我们的活跃用户感到更加舒心。衷心感谢 Discourse 团队为此付出的努力和用心。

codinghorror · 2019 年11 月 6 日 00:57

太好了！请告诉我们进展如何。既然 TL2 及以上用户已有独立设置，我建议您可以将默认编辑限制进一步缩短，甚至少于 1 天。

LotusJeff · 2025 年7 月 23 日 20:45

我建议在 Where 子句中添加以下行：

    AND p.cooked ~ 'href="http[s]?://'

这仅查找包含链接的帖子。此类垃圾邮件的一个属性是包含链接。

tobiaseigen · 2025 年7 月 24 日 22:58

有趣的是，有一个数据浏览器查询可以查找“过时的编辑”，以便进行审查以查找垃圾邮件。我看了一下，但在这里的元（meta）上没有发现任何明显不好的地方。该查询已包含链接。

我们现在有了人工智能垃圾邮件检测。我强烈推荐它！

话题		回复	浏览量
Spam bots tricking Discourse filter by editing Support	26	3321	2019 年9 月 9 日
Free to edit post at any time Feature	33	15590	2023 年5 月 22 日
Diagnosing spam attack of 100 topics Feature	34	3081	2017 年5 月 29 日
People editing posts into spam Support	13	1456	2019 年11 月 20 日
Editing Old Posts and Adding Links Doesn't Alert Anybody Feature	23	7808	2014 年10 月 7 日

人工驱动的复制粘贴垃圾信息

相关话题