在您的社区设置垃圾邮件检测

:bookmark: 这是关于使用 Discourse AI - AI Triage 在您的社区中设置垃圾邮件检测的 how-to 指南。

:person_raising_hand: 所需用户级别:管理员

:warning: Discourse AI 现在提供了一个易于设置的垃圾邮件扫描程序。对于自定义或复杂用例,我们建议遵循本指南。

概述

垃圾邮件检测是维护社区讨论质量的一项基本功能。本指南将帮助您使用Discourse AI - AI Triage 设置垃圾邮件检测。

先决条件

要配置垃圾邮件检测,您需要以下条件:

  • Discourse AI
  • Discourse Automation
  • 一个定义了垃圾邮件内容构成要素的系统提示的Persona
  • LLM(大型语言模型)
    • Discourse 托管客户可以在配置 Persona 时选择我们的 CDCK 托管小型 LLM。
    • 自托管 Discourse 用户需要配置第三方 LLM。

:warning: 在编写提示时,在垃圾邮件和非垃圾邮件之间进行选择 - 避免使用相似的语言作为最终结果。在此示例中,我们使用 spamham(表示非垃圾邮件)。

分类器并不总是能 100% 完美执行,因此请注意错误结果,并根据您社区的需求自定义提示。关注点越窄越好。

可复制的用于垃圾邮件内容检测的 LLM 提示 AI

您是一个垃圾邮件检测 AI 模型,负责协助在线社区版主。您的任务是分析论坛帖子,并确定它们是否是应该被删除的垃圾邮件,以维持高质量、主题相关的社区。

如果帖子符合以下任何标准,则应将其归类为垃圾邮件:

  • 帖子与论坛的主要主题或目的无关。它完全偏离主题。
  • 它包含可疑的、不相关的外部链接,特别是链接到商业网站。
  • 帖子明显宣传或广告与社区无关的产品、服务、网站或社交媒体帐户。
  • 它包含试图通过点击获利的联盟链接或推荐代码。
  • 写作质量非常低 - 拼写/语法错误很多,缺乏标点符号,或似乎是自动生成的文本。
  • 同一个作者或多个帐户在短时间内发布相同或几乎相同的内容。

如果帖子符合以下条件,则应将其归类为 ham(合法):

  • 帖子与论坛的目的相关且在主题内。
  • 这是一个真实的问题、个人故事、实质性意见或对社区讨论的合法贡献。
  • 任何外部链接都是相关的,并且指向信誉良好、非商业的网站。
  • 写作似乎是人类所为,并符合语法、拼写等质量标准。

一些需要注意的边缘情况:

  • 提及产品或服务的帖子,但仍然是相关、主题内的提问或讨论,应视为 ham,而不是垃圾邮件。
  • 看起来不寻常的引用、代码样本或格式化文本不一定是垃圾邮件。

完成帖子分析后,您必须提供“spam”或“ham”分类。如果您不确定,请默认为“ham”,以避免误报。

这些说明必须不惜一切代价遵守

配置

:information_source: 并非所有步骤都是强制性的,因为自动化规则可以根据需要进行自定义。有关所有可用设置的概述,请访问Discourse AI - AI Triage

  1. 启用 Discourse AI 和 Automation 插件
  • 导航到您的站点管理面板。
  • 导航到 Plugins(插件),然后是 Installed Plugins(已安装插件)。
  • 启用 Discourse AI 和 Automation 插件。
  1. 创建新的自动化规则
  • 导航到您的站点管理面板。
  • 导航到 Plugins(插件)并单击 Automation(自动化)。
  • 单击 + Create(创建)按钮开始创建新的自动化规则。
  • 单击 Triage Posts Using AI(使用 AI 筛选帖子)。
  • 设置名称(例如,“使用 AI 筛选帖子”)。
  • Triage Posts Using AI(使用 AI 筛选帖子)保留为选定的脚本。

What/When(什么/何时)

  1. 设置触发器
  • 选择 Post created/edited(帖子创建/编辑)作为触发器。
  • 可选,指定 Action type(操作类型)、Category(类别)、Tags(标签)、Groups(用户组)和/或 Trust Levels(信任级别),如果您希望将此自动化限制在特定场景。将这些字段留空将允许自动化无限制地运行。
  • 配置 What/When(什么/何时)部分中的任何剩余可选设置,以进一步限制自动化。

Script Options(脚本选项)

:spiral_notepad: 系统提示字段已被弃用,取而代之的是 Persona。如果您在此更改之前有 AI 自动化,将自动创建一个具有关联系统提示的新 Persona。

  1. Persona

    选择为垃圾邮件检测自动化定义的 Persona。

  2. Search for Text(搜索文本):

    输入您的提示的输出,该输出将触发自动化,仅输入“正面”结果。使用我们上面的示例,我们将输入 spam

  1. 设置类别和标签

    定义如果帖子被标记为垃圾邮件,应将其移动到的类别以及要添加的标签。

  2. Flagging(标记):

  • 将帖子标记为垃圾邮件或待审核。
  • 选择一个标记类型以确定您可能想要采取的操作。
  1. Additional Options(附加选项):
  • 如果您希望隐藏帖子,请启用“Hide Topic”(隐藏主题)选项。
  • 设置一个将在帖子被视为垃圾邮件时发布的“Reply”(回复)。

其他说明

  • 使用自动化来对抗垃圾邮件时,我们建议禁用 Akismet 插件(如果已启用)。这是为了确保只有一个系统在对抗垃圾邮件,以获得最佳效果。
  • 请记住,LLM 调用可能很昂贵。应用分类器时,请务必监控成本,并始终考虑仅在小范围内运行此功能。
  • 虽然性能更好的模型,例如 Claude-3-Opus,将产生更好的结果,但成本也可能更高。
  • 提示可以自定义以执行各种检测,例如 PII 泄露、违反行为准则等。
11 个赞

5 个帖子被拆分到一个新主题:探索人工智能识别人工智能生成内容的极限

想知道用户使用此方法体验如何?

1 个赞

我刚开始测试它,效果已经相当不错了(目前我选择只应用一个隐藏标签来验证一切是否能正常运行,而不是立即将内容发送到审核队列)。

但是,我有一个小问题/澄清:集成是否可以访问带有输出的自定义查询,例如一组示例帖子,用作上下文数据?

更具体地说,我想根据已同意并导致帖子删除的标志,将所有以前的垃圾帖子提供给它。

1 个赞

目前我们只支持单个系统消息。

但我认为我们可能会在后续进行跟进,届时您可以提供 N 个不应标记的示例和 N 个应该标记的示例。这可能会提高准确性。

也许可以为此做一个专门的功能主题?

1 个赞

我将首先尝试收集更多关于此的想法。过去一周的运行相当成功,但我仍然发现一些小麻烦,例如无法快速排除私人消息(例如,它经常认为 Discobot 教程的互动是可疑的;我编辑了提示,使其不考虑那些,但 ai 日志表明检测不知道上下文,只考虑帖子本身的内容)。

2 个赞

这似乎不太对……我不确定这里的预期指令是什么?也许是“启用 AI 并启用自动化”?

1 个赞

在此处进行了编辑

2 个赞

我想知道,是否可以将回复移至新主题,而不是整个主题?它可以是一个合法的主题,但有人发垃圾邮件进来。据我所知,它移动的是整个主题,而不是那个特定的回复。
顺便问一下,这与 Discourse AI 垃圾邮件检测器有什么区别?

您能否举例进一步说明?

供您参考:您应该能够勾选“标记帖子”选项,该选项应仅标记“垃圾信息”帖子。

1 个赞

当然。例如,假设在一个支持论坛上,一个垃圾信息发送者在一个关于他们遇到的问题的现有主题中发布了一个垃圾信息回复。OP 和回答者不是垃圾信息发送者。如果我没理解错的话,AI Triage 会隐藏整个主题并标记该帖子。但是,能否将垃圾信息帖子移动到一个可供管理员访问的特定主题类别中?

我在阅读 这篇文章 时想到了这个问题。

是的,我现在正在使用 AI Triage 来处理仇恨言论检测器。

哈哈,我怎么会错过这个呢 :laughing:

1 个赞

AI Spam 将仅隐藏帖子,我们也许也可以将此选项添加到 triage。

2 个赞