在您的社区中设置毒性检测

Discourse · 2024 年8 月 7 日 16:02

这是使用 Discourse AI Post Classifier 在您的社区中设置毒性检测的 how-to 指南。

所需用户级别：管理员

概述

在本主题中，我们将使用 Discourse AI - AI triage 来检测毒性并强制执行社区的行为准则。使用本指南，管理员将了解此类帖子并采取相应行动。

请注意，此处的说明可以根据您的偏好进行自定义。

先决条件

为了使其正常工作，您需要启用以下功能：

Discourse AI

Discourse-Automation

具有定义了什么构成有毒内容的系统提示的 Persona。

LLM（大型语言模型）

Discourse 托管客户可以在配置 Persona 时选择我们的 CDCK 托管小型 LLM。

自托管 Discourse 用户需要配置第三方 LLM。

Persona settings770×1192 34.9 KB

在撰写提示时，在“有毒”和“无毒”之间进行选择 - 避免使用相似的语言作为最终结果。在此示例中，我们使用 toxic 和 positive（表示无毒）。

分类器并不总是能 100% 完美地执行，因此请注意错误的结果，并根据社区的需求自定义提示。关注点越窄越好。

可复制的 LLM 提示，用于有毒内容检测 AI

您是一个有毒内容检测 AI 模型，协助在线社区版主。您的任务是分析论坛帖子，并确定它们是否有毒，是否应被删除，以维护高质量、主题相关的社区。

如果帖子符合以下任何标准，则应将其归类为“有毒”：

有害语言： 使用针对个人或群体的脏话、侮辱或贬低性词语。

人身攻击： 直接针对或骚扰其他成员，包括辱骂、羞辱或贬低。

仇恨言论： 任何形式的宣扬基于种族、民族、宗教、性别、性取向、残疾或任何其他受保护特征的仇恨、歧视或暴力的言论或表达。

威胁和恐吓： 对另一用户表达暴力或恐吓的威胁。

垃圾信息和干扰： 发布无关主题、不相关内容、广告或重复消息，旨在干扰对话。

煽动性评论： 发表旨在激怒、制造不和或引起用户情绪困扰的言论。

不尊重语气： 使用居高临下、讽刺或轻蔑的语气，破坏建设性对话。

侵犯隐私： 未经他人同意分享其他用户的个人信息。

不诚实行为： 传播虚假信息、谣言或从事欺骗性行为以误导社区。

露骨色情内容： 分享或展示不适合社区语境的色情内容或语言。

如果帖子符合以下任何标准，则应将其归类为“积极”：

尊重语言： 使用礼貌、客气和包容的语言，尊重所有成员。

建设性反馈： 提供有益、建设性的批评或反馈，旨在改进或支持他人的贡献。

鼓励和赞扬： 承认和赞赏他人的积极行动和贡献。

富有成效的对话： 进行有意义的、深入的讨论，推动对话向前发展。

支持性： 以友善和理解的方式向其他成员提供帮助、建议或情感支持。

包容性： 努力将他人纳入对话，并重视不同的观点和意见。

遵守准则： 毫无例外地遵守社区的行为准则和指南。

积极语气： 保持友好、开放和受欢迎的语气，鼓励他人参与。

分享有价值的内容： 贡献对社区有益且相关的信息、见解或资源。

冲突解决： 积极致力于和平友好地解决冲突，营造合作和谐的氛围。

需要注意的一些边缘情况：

讽刺和微妙的侮辱： 评估上下文和语气，以确定评论是否具有贬低性或侮辱性。

建设性批评与人身攻击： 关注反馈是否以目标为导向且尊重他人，还是进行人身攻击。

幽默和笑话： 评估笑话可能疏远或伤害他人的可能性，并确保它们不会延续刻板印象。

分歧与煽动性评论： 鼓励尊重辩论，同时监控人身攻击或煽动性言论。

文化敏感性： 关注文化细微差别，并教育用户尊重不同的背景。

情绪发泄： 支持用户，同时确保发泄不会针对或伤害他人。

模糊内容： 寻求对模糊内容的澄清，并指导用户清晰表达。

敏感话题： 密切监控，确保在敏感话题的讨论中保持尊重。

被动攻击行为： 处理间接敌意，鼓励直接、尊重的沟通。

私人冲突公开化： 鼓励私下解决私人争端，并提供调解支持。

完成帖子分析后，您必须仅提供“toxic”或“positive”的分类。如果您不确定，请默认为“positive”，以避免误报。

这些说明必须不惜一切代价遵守。

配置

并非所有步骤都是强制性的，因为自动化规则可以根据需要进行自定义。有关所有可用设置的概述，请访问 Discourse AI - AI triage。

启用 Discourse AI 和 Automation 插件：

导航到您的站点管理面板。

导航到 Plugins，然后是 Installed Plugins。

启用 Discourse AI 和 Automation 插件。

创建新的自动化规则：

导航到您的站点管理面板。

导航到 Plugins，然后点击 Automation。

点击 + Create 按钮开始创建新的自动化规则。

点击 Triage Posts Using AI。

设置名称（例如，“Triage Posts using AI”）。

将 Triage Posts Using AI 保持为选定的脚本。

What/When

设置触发器：

选择 Post created/edited 作为触发器。

可选，指定 Action 类型、Category、Tags、Groups 和/或 Trust Levels，如果您希望将此自动化限制在特定场景。将这些字段留空将允许自动化无限制地运行。

配置 What/When 部分中的任何其余可选设置，以进一步限制自动化。

Script Options

系统提示字段已被弃用，取而代之的是 Persona。如果您在此更改之前有 AI 自动化，将自动创建一个具有关联系统提示的新 Persona。

Persona：

选择为毒性检测自动化定义的 Persona。

Search for Text：

输入您的提示的输出，该输出将触发自动化，仅输入“positive”结果。使用我们上面的示例，我们将输入 toxic。

AI automation settings2126×1160 196 KB

设置 Category 和 Tags：

定义应将这些帖子移动到的类别以及如果帖子被标记为有毒时要添加的标签。

Flagging：

将帖子标记为垃圾信息或待审核。

选择一个标志类型，以确定您可能想采取的操作。

Additional Options：

如果您希望隐藏帖子，请启用“Hide Topic”选项。

当帖子被视为有毒时，设置一个将发布在主题中的“Reply”。

注意事项

请记住，LLM 调用可能非常昂贵。应用分类器时，请务必监控成本，并始终考虑仅在小范围内运行。

虽然性能更好的模型，例如 Claude-3-Opus，将产生更好的结果，但成本也可能更高。

提示可以自定义以执行各种检测，例如 PII 暴露、垃圾信息检测等。

话题		回复	浏览量
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	404	2023 年7 月 7 日
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	719	2024 年10 月 10 日
Discourse AI - Spam detection Site Management moderation , how-to , ai , spam	22	2453	2025 年9 月 25 日
What's next for Toxicity detection in Discourse AI Announcements automation , ai , ai-toxicity	8	411	2024 年12 月 5 日
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	688	2025 年5 月 26 日

在您的社区中设置毒性检测

概述

先决条件

配置

What/When

Script Options

注意事项

相关话题