在您的社区中设置 NSFW 检测

:bookmark: 本指南介绍如何使用 Discourse AI 自动化在您的社区中设置 NSFW(不适宜工作场合)内容检测,以识别和管理不当的图片和文本。

:person_raising_hand: 所需用户级别:管理员

在您的社区中设置 NSFW 检测

使用由 AI 驱动的自动化功能,自动检测和管理 Discourse 社区中的 NSFW(不适宜工作场合)内容。本指南将帮助您配置对不当图片和文本内容的自动化检测,从而以最少的​​人工干预来维护社区标准。

摘要

本文档涵盖了配置 Discourse AI 使用 AI 分类帖子 自动化的内容,以:

  • 使用支持视觉功能的 AI 模型检测 NSFW 图片
  • 识别不当的文本内容和语言
  • 自动标记、分类和管理有问题的帖子
  • 设置自定义回复和管理操作

此自动化功能使用大型语言模型 (LLM) 来分析帖子内容,并在检测到 NSFW 材料时执行预定义的操作。

先决条件

在设置 NSFW 检测之前,请确保已启用以下功能:

  • Discourse AI 插件 - 核心 AI 功能插件
  • Discourse Automation 插件:创建自动化规则所必需
  • 代理 (Agent)代理 (Agent),其系统提示定义了什么构成 NSFW 内容。使用明确的语言进行正面和负面分类,以避免混淆。
  • 支持视觉功能的 LLM:仅对图片检测是必需的;标准 LLM 适用于仅文本检测。确保 LLM 模型和代理都启用了“支持视觉功能 (Vision enabled)”。
    • Discourse 托管的客户可以在配置代理时选择我们的 CDCK 托管小型 LLM。
    • 自托管的 Discourse 用户需要配置第三方 LLM。

示例提示:

对于图片检测:

You are a bot specializing in image classification. Respond only with either NSFW or SAFE, and nothing else. NSFW is porn or gore, and SAFE is everything else. When in doubt reply with SAFE.

对于文本检测:

You are an advanced AI content moderation system designed to triage user-generated posts. Your task is to detect and flag any content that includes bad language, inappropriate terms, or NSFW (Not Safe for Work) content.

NSFW content includes explicit sexual content, violence, hate speech, graphic language, discrimination, self-harm references, or illegal activity.

Respond with exactly one word:
* "SAFE": The post is appropriate and doesn't contain bad or NSFW content
* "NSFW": If bad, inappropriate, or NSFW content is detected

Be context-aware and avoid false positives.

配置步骤

启用所需插件

  1. 导航到您的站点管理面板
  2. 前往 插件 (Plugins) > 已安装的插件 (Installed Plugins)
  3. 启用 Discourse AIAutomation 两个插件

创建自动化规则

  1. 在管理面板中,导航到 插件 (Plugins) > 自动化 (Automation)
  2. 点击 + 创建 (+ Create) 开始创建新的自动化规则
  3. 选择 使用 AI 分类帖子 (Triage Posts Using AI)
  4. 设置一个描述性名称(例如,“NSFW 内容检测”)

配置触发器和限制

设置触发器:

  • 选择 帖子创建/编辑 (Post created/edited) 作为扫描新帖子或编辑后帖子的触发器
  • 或者,选择 停滞的主题 (Stalled topic) 以在指定持续时间内没有回复的主题进行分类
  • 可选地指定操作类型、类别、标签、群组、信任级别或帖子功能来限制自动化范围
  • 留空字段以在全站范围内应用自动化

可选限制(帖子创建/编辑触发器):
配置其他设置以进一步限制自动化范围:

  • 仅限首帖 (First post only)仅限原帖 (Original post only) 以仅针对新主题
  • 仅限首个主题 (First topic only) 以仅针对用户的第一个主题
  • 帖子功能 (Post features) 以限制到带有图片、链接、代码或上传的帖子——对基于图片的 NSFW 检测很有用
  • 受限的构件类型 (Restricted archetype) 以限制到常规主题、公开主题或私人消息

配置 AI 分类

:spiral_notepad: 系统提示字段已被代理取代。如果您在进行此更改之前拥有 AI 自动化,系统将自动创建一个带有相关系统提示的新代理。

代理 (Agent):
选择为 NSFW 检测自动化定义的代理。

搜索文本 (Search text):
输入触发自动化操作的提示的确切输出。使用上面的示例,输入 NSFW

高级选项:

  • 最大帖子 Token 数 (Max Post Tokens):限制发送给 LLM 的帖子 Token 数量
  • 最大输出 Token 数 (Max output tokens):设置模型可以生成的 Token 的上限
  • 停止序列 (Stop Sequences):指示模型在遇到特定值时停止生成

设置管理操作

分类和标记:

  • 定义应将被标记的帖子移动到的类别
  • 指定要添加到已识别 NSFW 内容的标签

标记选项:

  • 启用 标记帖子 (Flag post) 以激活标记,然后选择一个标记类型:
    • 将帖子添加到审核队列 (Add post to review queue) ——将帖子发送到审核队列以供人工版主审核
    • 将帖子添加到审核队列并隐藏帖子 (Add post to review queue and hide post) ——审核队列 + 立即隐藏帖子
    • 将帖子添加到审核队列并删除帖子 (Add post to review queue and delete post) ——审核队列 + 软删除帖子
    • 将帖子添加到审核队列、删除帖子并静音用户 (Add post to review queue, delete post and silence user) ——审核队列 + 软删除帖子 + 静音作者
    • 标记为垃圾邮件并隐藏帖子 (Flag as spam and hide post) ——将帖子标记为垃圾邮件(自动隐藏)
    • 标记为垃圾邮件、隐藏帖子并静音用户 (Flag as spam, hide post and silence user) ——垃圾邮件标记 + 静音作者
  • 启用 隐藏主题 (Hide Topic) 以自动隐藏整个主题

自动化回复:

  • 设置 回复用户 (Reply User)回复 (Reply)(预设回复)以发布解释帖子被标记原因的固定消息
  • 选择 回复代理 (Reply Agent) 以使用单独的 AI 代理生成动态回复(这优先于预设回复)
  • 启用 回复为私语 (Reply as Whisper) 使回复仅对工作人员可见

作者通知:

  • 启用 通过私信通知作者 (Notify author via PM) 以在作者的内容被标记时向其发送个人消息
  • 设置 私信发送者 (PM sender) 用户(默认为系统)并可选地提供自定义 私信内容 (PM content)

其他选项:

  • 启用 包含私人消息 (Include personal messages) 以也扫描和分类私人消息

限制因素

  • 请记住,LLM 调用可能很昂贵。应用分类器时,请注意监控成本,并始终考虑仅在小范围内运行此功能。
  • 虽然性能更好的模型,例如 GPT-4o,会产生更好的结果,但这可能会带来更高的成本。然而,随着 LLM 变得更好、更便宜,我们已经看到了成本随时间降低。

其他用途

提示可以定制以执行各种检测,例如 PII(个人身份信息)泄露和垃圾邮件检测。我们很想听听您如何利用此自动化功能来造福您的社区!

8 个赞

一篇帖子被拆分到新主题:LLM 和 NSFW 内容检测延迟