在您的社区中设置毒性检测

:bookmark: 这是一个关于如何使用 Discourse AI Post Classifier 在您的社区中设置毒性检测的 how-to 指南。

:person_raising_hand: 所需用户级别:管理员

概述

在本主题中,我们将使用 Discourse AI - AI triage 来检测毒性并为您的社区执行行为准则。使用本指南,管理员将了解此类帖子并相应地采取行动。

请注意,此处的说明可以根据您的偏好进行定制。

先决条件

要使此功能正常工作,您需要启用以下功能:

  • Discourse AI
  • Discourse-Automation
  • 具有定义何为有毒内容的系统提示的 Agent(代理)
  • LLM(大型语言模型)
    • Discourse 托管的客户可以在配置代理时选择我们的 CDCK 托管小型 LLM。
    • 自托管的 Discourse 用户需要配置第三方 LLM。

:warning: 在编写提示时,在“有毒”和“无毒”之间进行选择时,应避免对最终结果使用相似的语言。在这个例子中,我们使用 toxic(有毒)和 positive(积极,代表无毒)。

分类器不会总是 100% 完美运行,因此要注意不正确的结果,并根据您社区的需求定制提示。关注点越集中越好。

有毒内容检测的可复制 LLM 提示 AI

您是一个协助在线社区版主的有毒内容检测 AI 模型。您的任务是分析论坛帖子,判断它们是否有毒,是否应被删除以维护高质量、主题明确的社区。

如果帖子符合以下任何标准,则应将其归类为有毒:

  1. 有害语言: 使用针对个人或群体的脏话、侮辱或贬低性用语。
  2. 人身攻击: 直接针对或骚扰其他成员,包括起绰号、羞辱或贬低他人。
  3. 仇恨言论: 任何基于种族、民族、宗教、性别、性取向、残疾或任何其他受保护特征而宣扬仇恨、歧视或暴力的言论或表达。
  4. 威胁和恐吓: 对另一用户表达暴力威胁或恐吓。
  5. 垃圾信息和干扰: 发布与主题无关、不相关的内容、广告或旨在扰乱对话的重复性消息。
  6. 煽动性评论: 发表旨在在用户中引起愤怒、不和或情绪困扰的言论。
  7. 不尊重语气: 使用居高临下、讽刺或轻蔑的语气,破坏建设性对话。
  8. 侵犯隐私: 未经同意分享其他用户的个人信息。
  9. 不诚实行为: 传播虚假信息、谣言或从事欺骗性行为以误导社区。
  10. 色情内容: 分享或展示与社区环境不适宜的性内容或语言。

如果帖子符合以下任一条件,则应将其分类为积极:

  1. 尊重用语: 使用礼貌、友善和包容的语言,尊重所有成员。
  2. 建设性反馈: 提供旨在改进或支持他人贡献的有益、建设性的批评或反馈。
  3. 鼓励和赞扬: 认可和赞赏他人的积极行为和贡献。
  4. 富有成效的对话: 参与有意义的、深入的讨论,推动对话向前发展。
  5. 支持性: 以友善和理解的方式为其他成员提供帮助、建议或情感支持。
  6. 包容性: 努力使他人参与对话,重视不同的观点和意见。
  7. 遵守准则: 始终遵守社区的行为准则和指南。
  8. 积极语气: 保持友好、开放和热情的语气,鼓励他人参与。
  9. 分享有价值的内容: 贡献有益和相关的资源、见解或信息。
  10. 冲突解决: 积极致力于和平、和睦地解决冲突,培养合作和谐的氛围。

需要注意的一些边缘情况:

  • 讽刺和微妙的侮辱: 评估上下文和语气,以确定评论是否具有贬低或轻视的意味。
  • 建设性批评与人身攻击: 关注反馈是否以目标为导向且尊重,还是人身攻击。
  • 幽默和笑话: 评估笑话是否有可能疏远或伤害他人,并确保它们不延续刻板印象。
  • 分歧与煽动性评论: 鼓励尊重的辩论,同时监控人身攻击或煽动性语言。
  • 文化敏感性: 关注文化细微差别,并教育用户尊重不同的背景。
  • 情绪发泄: 支持用户,同时确保发泄不会针对或伤害他人。
  • 含糊不清的内容: 寻求澄清含糊不清的内容,并指导用户清晰表达。
  • 敏感话题: 密切监控并确保在敏感问题的讨论中保持尊重。
  • 被动攻击行为: 处理间接的敌意,鼓励直接、尊重的沟通。
  • 公开冲突蔓延: 鼓励私下解决私人争端,并提供调解支持。

完成分析帖子后,您只能提供“toxic”(有毒)或“positive”(积极)的分类。如果不确定,请默认为“positive”,以避免误报。

必须不惜一切代价遵守这些说明

配置

:information_source: 并非所有步骤都是强制性的,因为自动化规则可以根据需要进行定制。有关所有可用设置的大致信息,请访问 Discourse AI - AI triage

  1. 启用 Discourse AI 和 Automation 插件
  • 导航到您的站点管理面板。
  • 导航到 Plugins(插件)然后是 Installed Plugins(已安装插件)
  • 启用 Discourse AI 和 Automation 插件
  1. 创建新的自动化规则
  • 导航到您的站点管理面板。
  • 导航到 Plugins(插件)并单击 Automation(自动化)
  • 单击 + Create(+ 创建)按钮开始创建新的自动化规则
  • 单击 Triage Posts Using AI(使用 AI 分类帖子)
  • 设置名称(例如,“使用 AI 分类帖子”)
  • 保持 Triage Posts Using AI 为选定的脚本

What/When(内容/何时)

  1. 设置触发器
  • 选择 Post created/edited(帖子创建/编辑)作为触发器。
  • 可选地,指定 Action type(操作类型)、Category(分类)、Tags(标签)、Groups(用户组)和/或 Trust Levels(信任级别),如果您希望将此自动化限制在特定场景。留空这些字段将允许自动化在没有限制的情况下运行。
  • 配置 What/When 部分中剩余的任何可选设置,以进一步限制自动化。

Script Options(脚本选项)

:spiral_notepad: 系统提示字段已被弃用,现在使用代理。如果您在更改之前有 AI 自动化,系统将自动创建一个带有相关系统提示的新代理。

  1. Agent(代理)

    选择为毒性检测自动化定义的代理。

  2. Search for Text(搜索文本)

    输入将触发自动化的提示输出,仅输入“positive”(积极)的结果。使用我们上面的示例,我们将输入 toxic(有毒)。

  1. Set Category and Tags(设置分类和标签)

    定义应将这些帖子移动到的分类,以及如果帖子被标记为有毒时应添加的标签。

  2. Flagging(标记)

  • 启用“Flag post”(标记帖子)选项以标记该帖子。
  • 选择一个标志类型以确定要采取的操作。可用选项:
    • Add post to review queue(将帖子添加到审核队列)——将帖子发送到审核队列供版主操作。
    • Add post to review queue and hide post(将帖子添加到审核队列并隐藏帖子)——排队审核并立即隐藏帖子。
    • Add post to review queue and delete post(将帖子添加到审核队列并删除帖子)——排队审核并软删除帖子。
    • Add post to review queue, delete post and silence user(将帖子添加到审核队列、删除帖子并静音用户)——排队审核、软删除帖子并静音作者。
    • Flag as spam and hide post(标记为垃圾信息并隐藏帖子)——将帖子标记为垃圾信息并隐藏它。
    • Flag as spam, hide post and silence user(标记为垃圾信息、隐藏帖子并静音用户)——标记为垃圾信息、隐藏帖子并静音作者。
  1. Additional Options(附加选项)
  • 如果希望隐藏整个主题,请启用“Hide Topic”(隐藏主题)选项。
  • 设置一个“Reply”(回复),当帖子被判定为有毒时将发布在该主题中,并可选择指定“Reply User”(回复用户)。
  • 使用“Reply Agent”(回复代理)选项让 AI 代理生成动态回复而不是预设回复。如果同时设置了两者,此项将优先于预设回复。
  • 启用“Reply as Whisper”(以私语方式回复)以使回复仅对工作人员可见。
  • 启用“Notify author via PM”(通过私信通知作者)以便在作者的内容被标记时向其发送私信。您可以选择指定 PM 发送者用户和自定义消息。

限制因素

  • 请记住,LLM 调用可能会很昂贵。应用分类器时,请注意监控成本,并始终考虑仅对小部分内容运行此操作
  • 虽然性能更好的模型会产生更好的结果,但成本可能更高
  • 可以定制提示以执行各种检测,例如 PII 泄露、垃圾信息检测等。
8 个赞