Discourse AI - 垃圾信息检测

这是同一个垃圾邮件发送者在此被抓获的一个例子:https://meta.discourse.org/t/full-list-of-quickbooks-desktop-support-contact-numbers-a-complete-call-center-in-the-usa/380776(已隐藏)。

这些人确实很努力。

1 个赞

很棒的功能。 :raising_hands: 这正是我希望看到人工智能的使用方式。

快速提问:当新的 TL0 用户提交回复或主题时,内容扫描会有延迟吗?

我在内置测试器中看到了短暂的延迟(截图如下),但当我从测试帐户发布时,没有类似的暂停。扫描是发布后异步进行的,只有在触发规则时帖子才会被隐藏吗?(背景:我正在使用 OpenAI ChatGPT 5 API。)

就我而言,AI Spam & Stats 的计数器与测试帐户一样按预期递增,所以帖子确实被扫描了;它只是没有像测试按钮那样引入相同的延迟。

image

谢谢。

好的,这个效果相当不错,但当它标记了数十个主题/用户时会发生什么?我没有看到批量禁止/删除这些用户/帖子的方法。

感谢您提供的详细帖子。我们的实例启用了 Discourse AI 垃圾邮件检测,我们看到的情况之一是,当一个账户发表的第一篇帖子被标记时,系统会自动将其静音。

我理解这是为了静音一次性垃圾邮件发送者;然而,这导致了一个问题:在某些情况下,我们希望批准标记但不想静音用户时,批准/接受标记意味着用户将保持静音状态。最好能有:

  1. 一个“同意并保持静音”按钮,以及
  2. 一个单独的“同意并解除静音”按钮。
2 个赞

这是一个棘手的问题,我们不想让人们因选择过多而不知所措,但我完全理解在规模化的情况下,这可能会成为一个问题。

让我和企业体验 (enterprise xp) 团队核实一下,也许我们可以为您的论坛做一些小的定制。

1 个赞

我在本地开发环境发布了一篇测试垃圾主题,但是它并没有自动进入审核队列。

AI检测结果确实是垃圾帖子。

而且也符合其他进入审核队列的条件。

  1. 用户信任级别

    • 扫描信任级别为 1 或更低 的用户的帖子。

    • 排除信任级别更高的用户的帖子。

  2. 帖子类型

    • 公开帖子(不包括私人消息)。

    • 根据其他阈值,包括回复帖子和第一个主题帖子。

  3. 帖子编辑

    • 扫描有重大编辑的帖子(例如,更改超过 10 个字符)。

    • 对同一帖子的扫描之间强制执行 10 分钟的延迟

  4. 帖子频率

    • 优先处理新用户在公开主题中总共发布少于 4 篇帖子 的情况。

    • 排除超出此阈值用户的帖子。

但是,最终结果是没有进入审核队列。

我应该检查哪些地方,可以找到问题呢?

您好 @singi2016cn

您的意思是您使用测试工具验证了这一点吗?

您可以通过遵循以下说明访问该工具:

  1. 登录您论坛上具有管理员权限的帐户。
  2. 导航到您论坛上的此页面:/admin/plugins/discourse-ai/ai-spam
  3. 单击该页面上的“测试…”按钮。
    将打开“测试垃圾邮件检测”对话框。
  4. 在对话框的“帖子 URL 或 ID”字段中输入您的测试垃圾邮件帖子的 URL 或帖子 ID。
  5. 单击“运行测试”按钮。
2 个赞

是的,测试工具明确返回是Spam,然后我发帖内容一模一样,却没有进入审核队列。

这是谁发的?您是使用了自己创建的新用户进行测试,还是例如使用了具有版主权限的帐户?

普通用户,trust_level_1 信任级别,不是管理员,也不是版主。

这是我用于垃圾邮件检测的自定义指令集。它比标准版本更详细,因此会使用更多的 token。其他人用于垃圾邮件检测的客户指令集是什么样的?

简洁垃圾邮件检测指令集

你是一个正在审查论坛帖子的垃圾邮件检测系统。

你的任务是判断一个帖子主要是为了推广、欺骗、操纵搜索排名、分发恶意链接,还是破坏讨论——而不是真正参与社区。

评估:

  • 帖子内容
  • 帖子类型(回复或新主题)
  • 帖子主题背景(针对回复)
  • 网站信息

如果帖子出现以下情况,则归类为垃圾邮件:

  • 在没有有意义参与的情况下推广产品、服务或外部网站
  • 包含可疑的、不相关的或多个推广链接
  • 使用类似搜索引擎优化(SEO)的关键词堆砌或重复模式
  • 看起来是自动生成、模板化或机器人生成的
  • 与论坛主题无关
  • 对于回复帖子:忽略主题并注入不相关的内容

强烈的垃圾邮件指标包括:

  • 联盟/推荐链接
  • “立即购买”、折扣或促销语言
  • 与讨论无关的联系信息
  • 通用赞美 + 链接
  • 复制粘贴结构
  • 无意义或由人工智能生成的文本

不要仅因以下原因归类为垃圾邮件:

  • 用户是新用户
  • 英语不完美
  • 帖子很短
  • 语气很热情
  • 在相关背景下提到了相关产品或供应商

合法的信号包括:

  • 对主题的具体引用
  • 与主题相关的技术讨论
  • 真实的问题
  • 与论坛主题相关的个人经验

决策规则

如果主要意图是推广、恶意或破坏性 → 垃圾邮件 = true。
如果帖子有意义地参与了讨论 → 垃圾邮件 = false。

如果不确定但存在多个危险信号,请优先考虑社区安全。


输出格式

仅返回有效的 JSON:

{“spam”: true 或 false, “reason”: “简短的解释(1-2 句话)。”}

不要包含额外的评论。

1 个赞

在“管理员 → 插件 → AI → SPAM”页面上应该有一个报告,显示摘要框的详细信息。摘要框显示了扫描的帖子数量、检测到的垃圾邮件数量以及误报和漏报的数量。

  • 详细报告是否存在于我没有找到的某个地方?
  • 是否有“数据资源管理器”(Data Explorer)查询可以提供更底层的详细信息?

提前感谢。

这个可以为你提供所有详细信息

SELECT * FROM ai_spam_logs ORDER BY 1 DESC LIMIT 50
2 个赞