在您的社区中设置毒性检测

Discourse · 2024 年8 月 7 日 16:02

这是一个关于如何使用 Discourse AI Post Classifier 在您的社区中设置毒性检测的 how-to 指南。

所需用户级别：管理员

概述

在本主题中，我们将使用 Discourse AI - AI triage 来检测毒性并为您的社区执行行为准则。使用本指南，管理员将了解此类帖子并相应地采取行动。

请注意，此处的说明可以根据您的偏好进行定制。

先决条件

要使此功能正常工作，您需要启用以下功能：

Discourse AI

Discourse-Automation

具有定义何为有毒内容的系统提示的 Agent（代理）。

LLM（大型语言模型）

Discourse 托管的客户可以在配置代理时选择我们的 CDCK 托管小型 LLM。

自托管的 Discourse 用户需要配置第三方 LLM。

Agent settings770×1192 34.9 KB

在编写提示时，在“有毒”和“无毒”之间进行选择时，应避免对最终结果使用相似的语言。在这个例子中，我们使用 toxic（有毒）和 positive（积极，代表无毒）。

分类器不会总是 100% 完美运行，因此要注意不正确的结果，并根据您社区的需求定制提示。关注点越集中越好。

有毒内容检测的可复制 LLM 提示 AI

您是一个协助在线社区版主的有毒内容检测 AI 模型。您的任务是分析论坛帖子，判断它们是否有毒，是否应被删除以维护高质量、主题明确的社区。

如果帖子符合以下任何标准，则应将其归类为有毒：

有害语言： 使用针对个人或群体的脏话、侮辱或贬低性用语。

人身攻击： 直接针对或骚扰其他成员，包括起绰号、羞辱或贬低他人。

仇恨言论： 任何基于种族、民族、宗教、性别、性取向、残疾或任何其他受保护特征而宣扬仇恨、歧视或暴力的言论或表达。

威胁和恐吓： 对另一用户表达暴力威胁或恐吓。

垃圾信息和干扰： 发布与主题无关、不相关的内容、广告或旨在扰乱对话的重复性消息。

煽动性评论： 发表旨在在用户中引起愤怒、不和或情绪困扰的言论。

不尊重语气： 使用居高临下、讽刺或轻蔑的语气，破坏建设性对话。

侵犯隐私： 未经同意分享其他用户的个人信息。

不诚实行为： 传播虚假信息、谣言或从事欺骗性行为以误导社区。

色情内容： 分享或展示与社区环境不适宜的性内容或语言。

如果帖子符合以下任一条件，则应将其分类为积极：

尊重用语： 使用礼貌、友善和包容的语言，尊重所有成员。

建设性反馈： 提供旨在改进或支持他人贡献的有益、建设性的批评或反馈。

鼓励和赞扬： 认可和赞赏他人的积极行为和贡献。

富有成效的对话： 参与有意义的、深入的讨论，推动对话向前发展。

支持性： 以友善和理解的方式为其他成员提供帮助、建议或情感支持。

包容性： 努力使他人参与对话，重视不同的观点和意见。

遵守准则： 始终遵守社区的行为准则和指南。

积极语气： 保持友好、开放和热情的语气，鼓励他人参与。

分享有价值的内容： 贡献有益和相关的资源、见解或信息。

冲突解决： 积极致力于和平、和睦地解决冲突，培养合作和谐的氛围。

需要注意的一些边缘情况：

讽刺和微妙的侮辱： 评估上下文和语气，以确定评论是否具有贬低或轻视的意味。

建设性批评与人身攻击： 关注反馈是否以目标为导向且尊重，还是人身攻击。

幽默和笑话： 评估笑话是否有可能疏远或伤害他人，并确保它们不延续刻板印象。

分歧与煽动性评论： 鼓励尊重的辩论，同时监控人身攻击或煽动性语言。

文化敏感性： 关注文化细微差别，并教育用户尊重不同的背景。

情绪发泄： 支持用户，同时确保发泄不会针对或伤害他人。

含糊不清的内容： 寻求澄清含糊不清的内容，并指导用户清晰表达。

敏感话题： 密切监控并确保在敏感问题的讨论中保持尊重。

被动攻击行为： 处理间接的敌意，鼓励直接、尊重的沟通。

公开冲突蔓延： 鼓励私下解决私人争端，并提供调解支持。

完成分析帖子后，您只能提供“toxic”（有毒）或“positive”（积极）的分类。如果不确定，请默认为“positive”，以避免误报。

必须不惜一切代价遵守这些说明

配置

并非所有步骤都是强制性的，因为自动化规则可以根据需要进行定制。有关所有可用设置的大致信息，请访问 Discourse AI - AI triage。

启用 Discourse AI 和 Automation 插件：

导航到您的站点管理面板。

导航到 Plugins（插件）然后是 Installed Plugins（已安装插件）

启用 Discourse AI 和 Automation 插件

创建新的自动化规则：

导航到您的站点管理面板。

导航到 Plugins（插件）并单击 Automation（自动化）

单击 + Create（+ 创建）按钮开始创建新的自动化规则

单击 Triage Posts Using AI（使用 AI 分类帖子）

设置名称（例如，“使用 AI 分类帖子”）

保持 Triage Posts Using AI 为选定的脚本

What/When（内容/何时）

设置触发器：

选择 Post created/edited（帖子创建/编辑）作为触发器。

可选地，指定 Action type（操作类型）、Category（分类）、Tags（标签）、Groups（用户组）和/或 Trust Levels（信任级别），如果您希望将此自动化限制在特定场景。留空这些字段将允许自动化在没有限制的情况下运行。

配置 What/When 部分中剩余的任何可选设置，以进一步限制自动化。

Script Options（脚本选项）

系统提示字段已被弃用，现在使用代理。如果您在更改之前有 AI 自动化，系统将自动创建一个带有相关系统提示的新代理。

Agent（代理）：

选择为毒性检测自动化定义的代理。

Search for Text（搜索文本）：

输入将触发自动化的提示输出，仅输入“positive”（积极）的结果。使用我们上面的示例，我们将输入 toxic（有毒）。

AI automation settings2126×1160 196 KB

Set Category and Tags（设置分类和标签）：

定义应将这些帖子移动到的分类，以及如果帖子被标记为有毒时应添加的标签。

Flagging（标记）：

启用“Flag post”（标记帖子）选项以标记该帖子。

选择一个标志类型以确定要采取的操作。可用选项：

Add post to review queue（将帖子添加到审核队列）——将帖子发送到审核队列供版主操作。

Add post to review queue and hide post（将帖子添加到审核队列并隐藏帖子）——排队审核并立即隐藏帖子。

Add post to review queue and delete post（将帖子添加到审核队列并删除帖子）——排队审核并软删除帖子。

Add post to review queue, delete post and silence user（将帖子添加到审核队列、删除帖子并静音用户）——排队审核、软删除帖子并静音作者。

Flag as spam and hide post（标记为垃圾信息并隐藏帖子）——将帖子标记为垃圾信息并隐藏它。

Flag as spam, hide post and silence user（标记为垃圾信息、隐藏帖子并静音用户）——标记为垃圾信息、隐藏帖子并静音作者。

Additional Options（附加选项）：

如果希望隐藏整个主题，请启用“Hide Topic”（隐藏主题）选项。

设置一个“Reply”（回复），当帖子被判定为有毒时将发布在该主题中，并可选择指定“Reply User”（回复用户）。

使用“Reply Agent”（回复代理）选项让 AI 代理生成动态回复而不是预设回复。如果同时设置了两者，此项将优先于预设回复。

启用“Reply as Whisper”（以私语方式回复）以使回复仅对工作人员可见。

启用“Notify author via PM”（通过私信通知作者）以便在作者的内容被标记时向其发送私信。您可以选择指定 PM 发送者用户和自定义消息。

限制因素

请记住，LLM 调用可能会很昂贵。应用分类器时，请注意监控成本，并始终考虑仅对小部分内容运行此操作

虽然性能更好的模型会产生更好的结果，但成本可能更高

可以定制提示以执行各种检测，例如 PII 泄露、垃圾信息检测等。

话题		回复	浏览量
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	462	2023 年7 月 7 日
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	1	1185	2026 年3 月 2 日
What's next for Toxicity detection in Discourse AI Announcements ai-toxicity , automation , ai	8	485	2024 年12 月 5 日
Experiments with AI based moderation on Discourse Meta Community Building moderation , ai	11	1035	2025 年5 月 26 日
Discourse AI - AI triage Site Management how-to , ai , automation	50	5419	2025 年7 月 27 日

在您的社区中设置毒性检测

概述

先决条件

配置

What/When（内容/何时）

Script Options（脚本选项）

限制因素

相关话题