在您的社区中设置NSFW检测

:bookmark: 本指南介绍如何使用 Discourse AI 自动化在社区中设置 NSFW(不适宜工作场所)内容检测,以识别和审核不当的图片和文本。

:person_raising_hand: 所需用户级别:管理员

在社区中设置 NSFW 检测

使用 AI 驱动的自动化功能,自动检测和审核 Discourse 社区中的 NSFW(不适宜工作场所)内容。本指南将帮助您配置不当图片和文本内容的自动检测,从而最大限度地减少手动干预,维护社区标准。

摘要

本文档涵盖了配置 Discourse AI Post Classifier 自动化以实现以下目标:

  • 使用支持视觉的 AI 模型检测 NSFW 图片
  • 识别不当的文本内容和语言
  • 自动标记、分类和审核有问题的帖子
  • 设置自定义回复和审核操作

该自动化使用大型语言模型 (LLM) 来分析帖子内容,并在检测到 NSFW 材料时执行预定义的动作。

先决条件

在设置 NSFW 检测之前,请确保已启用以下功能:

  • Discourse AI 插件 - 核心 AI 功能插件
  • Discourse Automation 插件:创建自动化规则所必需
  • PersonaPersona 具有定义 NSFW 内容的系统提示。使用清晰的语言区分正面和负面分类,以避免混淆。
  • 支持视觉的 LLM:仅图片检测需要;标准 LLM 适用于仅文本检测。
    • Discourse 托管客户可以在配置 Persona 时选择我们的 CDCK 托管小型 LLM。
    • 自托管 Discourse 用户需要配置第三方 LLM。

示例提示:

对于图片检测:

You are a bot specializing in image classification. Respond only with either NSFW or SAFE, and nothing else. NSFW is porn or gore, and SAFE is everything else. When in doubt reply with SAFE.

对于文本检测:

You are an advanced AI content moderation system designed to triage user-generated posts. Your task is to detect and flag any content that includes bad language, inappropriate terms, or NSFW (Not Safe for Work) content.

NSFW content includes explicit sexual content, violence, hate speech, graphic language, discrimination, self-harm references, or illegal activity.

Respond with exactly one word:
* "SAFE": The post is appropriate and doesn't contain bad or NSFW content
* "NSFW": If bad, inappropriate, or NSFW content is detected

Be context-aware and avoid false positives.

配置步骤

启用所需插件

  1. 导航到您的站点管理面板
  2. 转到 Plugins > Installed Plugins
  3. 启用 Discourse AIAutomation 插件

创建自动化规则

  1. 在管理面板中,导航到 Plugins > Automation
  2. 点击 + Create 开始创建新的自动化规则
  3. 选择 Triage Posts Using AI
  4. 设置一个描述性名称(例如,“NSFW 内容检测”)

配置触发器和限制

设置触发器:

  • 选择 Post created/edited 作为触发器
  • 可选地指定 Action type、Category、Tags、Groups 或 Trust Levels 来限制自动化范围
  • 将字段留空以将自动化应用于整个站点

可选限制:
在 What/When 部分配置其他设置,以进一步限制自动化范围,例如仅针对新用户的首次发帖。

配置 AI 分类

:spiral_notepad: 系统提示字段已被弃用,取而代之的是 Persona。如果您在此更改之前拥有 AI 自动化,将自动创建一个具有相关系统提示的新 Persona。

Persona:
选择为 NSFW 检测自动化定义的 Persona。

Search text:
输入提示中触发自动化操作的确切输出。使用上面的示例,输入 NSFW

设置审核操作

分类和标记:

  • 定义应将标记的帖子移动到的类别
  • 指定要添加到已识别 NSFW 内容的标签

标记选项:

  • 选择标记类型:垃圾邮件(自动隐藏)或审核队列(手动审核)
  • 启用“Hide Topic”以自动隐藏标记的内容

自动化回复:

  • 为系统回复设置回复用户
  • 创建自定义消息,解释帖子被标记的原因
  • 可选地使用 AI Persona 进行动态回复

注意事项

  • 请记住,LLM 调用可能成本高昂。应用分类器时,请务必监控成本,并始终考虑仅在小范围内运行此功能。
  • 虽然性能更好的模型,例如 GPT-4o,将产生更好的结果,但成本可能会更高。然而,随着 LLM 变得越来越好且成本越来越低,我们已经看到成本在下降。

其他用途

可以自定义提示以执行各种检测,例如 PII 泄露和垃圾邮件检测。我们很乐意听到您如何利用此自动化来造福您的社区!

6 个赞