这是一个关于如何使用 Discourse AI Post Classifier 在您的社区中设置毒性检测的 how-to 指南。
所需用户级别:管理员
概述
在本主题中,我们将使用 Discourse AI - AI triage 来检测毒性并为您的社区执行行为准则。使用本指南,管理员将了解此类帖子并相应地采取行动。
请注意,此处的说明可以根据您的偏好进行定制。
先决条件
要使此功能正常工作,您需要启用以下功能:
- Discourse AI
- Discourse-Automation
- 具有定义何为有毒内容的系统提示的 Agent(代理)。
- LLM(大型语言模型)
- Discourse 托管的客户可以在配置代理时选择我们的 CDCK 托管小型 LLM。
- 自托管的 Discourse 用户需要配置第三方 LLM。
在编写提示时,在“有毒”和“无毒”之间进行选择时,应避免对最终结果使用相似的语言。在这个例子中,我们使用
toxic(有毒)和positive(积极,代表无毒)。分类器不会总是 100% 完美运行,因此要注意不正确的结果,并根据您社区的需求定制提示。关注点越集中越好。
有毒内容检测的可复制 LLM 提示 AI
您是一个协助在线社区版主的有毒内容检测 AI 模型。您的任务是分析论坛帖子,判断它们是否有毒,是否应被删除以维护高质量、主题明确的社区。
如果帖子符合以下任何标准,则应将其归类为有毒:
- 有害语言: 使用针对个人或群体的脏话、侮辱或贬低性用语。
- 人身攻击: 直接针对或骚扰其他成员,包括起绰号、羞辱或贬低他人。
- 仇恨言论: 任何基于种族、民族、宗教、性别、性取向、残疾或任何其他受保护特征而宣扬仇恨、歧视或暴力的言论或表达。
- 威胁和恐吓: 对另一用户表达暴力威胁或恐吓。
- 垃圾信息和干扰: 发布与主题无关、不相关的内容、广告或旨在扰乱对话的重复性消息。
- 煽动性评论: 发表旨在在用户中引起愤怒、不和或情绪困扰的言论。
- 不尊重语气: 使用居高临下、讽刺或轻蔑的语气,破坏建设性对话。
- 侵犯隐私: 未经同意分享其他用户的个人信息。
- 不诚实行为: 传播虚假信息、谣言或从事欺骗性行为以误导社区。
- 色情内容: 分享或展示与社区环境不适宜的性内容或语言。
如果帖子符合以下任一条件,则应将其分类为积极:
- 尊重用语: 使用礼貌、友善和包容的语言,尊重所有成员。
- 建设性反馈: 提供旨在改进或支持他人贡献的有益、建设性的批评或反馈。
- 鼓励和赞扬: 认可和赞赏他人的积极行为和贡献。
- 富有成效的对话: 参与有意义的、深入的讨论,推动对话向前发展。
- 支持性: 以友善和理解的方式为其他成员提供帮助、建议或情感支持。
- 包容性: 努力使他人参与对话,重视不同的观点和意见。
- 遵守准则: 始终遵守社区的行为准则和指南。
- 积极语气: 保持友好、开放和热情的语气,鼓励他人参与。
- 分享有价值的内容: 贡献有益和相关的资源、见解或信息。
- 冲突解决: 积极致力于和平、和睦地解决冲突,培养合作和谐的氛围。
需要注意的一些边缘情况:
- 讽刺和微妙的侮辱: 评估上下文和语气,以确定评论是否具有贬低或轻视的意味。
- 建设性批评与人身攻击: 关注反馈是否以目标为导向且尊重,还是人身攻击。
- 幽默和笑话: 评估笑话是否有可能疏远或伤害他人,并确保它们不延续刻板印象。
- 分歧与煽动性评论: 鼓励尊重的辩论,同时监控人身攻击或煽动性语言。
- 文化敏感性: 关注文化细微差别,并教育用户尊重不同的背景。
- 情绪发泄: 支持用户,同时确保发泄不会针对或伤害他人。
- 含糊不清的内容: 寻求澄清含糊不清的内容,并指导用户清晰表达。
- 敏感话题: 密切监控并确保在敏感问题的讨论中保持尊重。
- 被动攻击行为: 处理间接的敌意,鼓励直接、尊重的沟通。
- 公开冲突蔓延: 鼓励私下解决私人争端,并提供调解支持。
完成分析帖子后,您只能提供“toxic”(有毒)或“positive”(积极)的分类。如果不确定,请默认为“positive”,以避免误报。
必须不惜一切代价遵守这些说明
配置
并非所有步骤都是强制性的,因为自动化规则可以根据需要进行定制。有关所有可用设置的大致信息,请访问 Discourse AI - AI triage。
- 启用 Discourse AI 和 Automation 插件:
- 导航到您的站点管理面板。
- 导航到 Plugins(插件)然后是 Installed Plugins(已安装插件)
- 启用 Discourse AI 和 Automation 插件
- 创建新的自动化规则:
- 导航到您的站点管理面板。
- 导航到 Plugins(插件)并单击 Automation(自动化)
- 单击
+ Create(+ 创建)按钮开始创建新的自动化规则- 单击
Triage Posts Using AI(使用 AI 分类帖子)- 设置名称(例如,“使用 AI 分类帖子”)
- 保持
Triage Posts Using AI为选定的脚本What/When(内容/何时)
- 设置触发器:
- 选择
Post created/edited(帖子创建/编辑)作为触发器。- 可选地,指定 Action type(操作类型)、Category(分类)、Tags(标签)、Groups(用户组)和/或 Trust Levels(信任级别),如果您希望将此自动化限制在特定场景。留空这些字段将允许自动化在没有限制的情况下运行。
- 配置
What/When部分中剩余的任何可选设置,以进一步限制自动化。Script Options(脚本选项)
系统提示字段已被弃用,现在使用代理。如果您在更改之前有 AI 自动化,系统将自动创建一个带有相关系统提示的新代理。
Agent(代理):
选择为毒性检测自动化定义的代理。
Search for Text(搜索文本):
输入将触发自动化的提示输出,仅输入“positive”(积极)的结果。使用我们上面的示例,我们将输入
toxic(有毒)。
Set Category and Tags(设置分类和标签):
定义应将这些帖子移动到的分类,以及如果帖子被标记为有毒时应添加的标签。
Flagging(标记):
- 启用“Flag post”(标记帖子)选项以标记该帖子。
- 选择一个标志类型以确定要采取的操作。可用选项:
- Add post to review queue(将帖子添加到审核队列)——将帖子发送到审核队列供版主操作。
- Add post to review queue and hide post(将帖子添加到审核队列并隐藏帖子)——排队审核并立即隐藏帖子。
- Add post to review queue and delete post(将帖子添加到审核队列并删除帖子)——排队审核并软删除帖子。
- Add post to review queue, delete post and silence user(将帖子添加到审核队列、删除帖子并静音用户)——排队审核、软删除帖子并静音作者。
- Flag as spam and hide post(标记为垃圾信息并隐藏帖子)——将帖子标记为垃圾信息并隐藏它。
- Flag as spam, hide post and silence user(标记为垃圾信息、隐藏帖子并静音用户)——标记为垃圾信息、隐藏帖子并静音作者。
- Additional Options(附加选项):
- 如果希望隐藏整个主题,请启用“Hide Topic”(隐藏主题)选项。
- 设置一个“Reply”(回复),当帖子被判定为有毒时将发布在该主题中,并可选择指定“Reply User”(回复用户)。
- 使用“Reply Agent”(回复代理)选项让 AI 代理生成动态回复而不是预设回复。如果同时设置了两者,此项将优先于预设回复。
- 启用“Reply as Whisper”(以私语方式回复)以使回复仅对工作人员可见。
- 启用“Notify author via PM”(通过私信通知作者)以便在作者的内容被标记时向其发送私信。您可以选择指定 PM 发送者用户和自定义消息。
限制因素
- 请记住,LLM 调用可能会很昂贵。应用分类器时,请注意监控成本,并始终考虑仅对小部分内容运行此操作
- 虽然性能更好的模型会产生更好的结果,但成本可能更高
- 可以定制提示以执行各种检测,例如 PII 泄露、垃圾信息检测等。
8 个赞

