Discourse AI - 毒性

Discourse · 2023 年4 月 24 日 19:39

本主题涵盖 Discourse AI 插件的 Toxicity 功能的配置。

所需用户级别：管理员

Toxicity 模块可以自动对 Discourse 实例中的每个新帖子和聊天消息的毒性分数进行分类。您还可以启用对超出阈值的内容进行自动标记。

分类存储在数据库中，因此您可以启用该插件并使用 Data Explorer 立即报告 Discourse 中新内容的分类情况。我们很快将随插件发布一些默认的 Data Explorer 查询，以简化此过程。

设置

ai_toxicity_enabled：启用或禁用模块

ai_toxicity_inference_service_api_endpoint：Toxicity 模块的 API 运行的 URL。如果您使用 CDCK 托管，此设置将自动处理。如果您是自托管，请参阅自托管指南。

ai_toxicity_inference_service_api_key：上面配置的 Toxicity API 的 API 密钥。如果您使用 CDCK 托管，此设置将自动处理。如果您是自托管，请参阅自托管指南。

ai_toxicity_inference_service_api_model：ai_toxicity_inference_service_api_model：我们提供三种不同的模型：“original”、“unbiased”和“multilingual”。建议使用“unbiased”而不是“original”，因为它会尝试避免将训练材料中引入的偏见带入分类。对于多语言社区，最后一个模型支持意大利语、法语、俄语、葡萄牙语、西班牙语和土耳其语。

ai_toxicity_flag_automatically：当特定类别的分类超过配置的阈值时，自动标记帖子/聊天消息。可用类别包括 toxicity、severe_toxicity、obscene、identity_attack、insult、threat 和 sexual_explicit。每个类别都有一个 ai_toxicity_flag_threshold_${category} 设置。

ai_toxicity_groups_bypass：这些组中的用户不会被 Toxicity 模块对其帖子进行分类。默认情况下包括管理员用户。

附加资源

Discourse AI

Install plugins on a self-hosted site

Hifihedgehog · 2023 年9 月 11 日 23:18

我现在正在对此进行一些调整，我是否可以认为阈值越高越严格，阈值越低越宽松？

JimPas · 2023 年9 月 12 日 05:08

我会说阈值越高，它就越宽松。较低的阈值更容易将帖子标记为有毒，因为它触发标记所需的条件更少，因此较高的阈值需要更多的条件才能触发标记。
低阈值 = 容易跨越
高阈值 = 更难跨越

nathank · 2023 年11 月 23 日 07:45

我希望有一个机制来阻止在我们的网站上进行商业活动——不是毒性本身，而是对我们的社区造成极大的损害。

这很接近，但并不是我们感兴趣的东西。

您考虑过这个方面吗？

Falco · 2023 年11 月 23 日 12:00

这已包含在 Discourse AI Post Classifier - Automation rule 中。请告知我进展如何。

Mr.X_Mr.X · 2024 年4 月 17 日 02:09

有人能帮我用 Google Perspective API 设置好它吗？我会在市场上放一个广告，但我认为这里更合适。

Samantha_Venia_Logan · 2024 年8 月 26 日 05:46

我知道这已经是去年了，但请告诉我这次实施的进展！我个人对此很关注 ^^ 话虽如此，如果我没记错的话，@Discourse，您在此页面上提到的属性确实是 Perspective 的原子指标，是通过 Detoxify 实现的，所以添加 Perspective 有点多余，对吧？

ai_toxicity_flag_automatically：当特定类别的分类超过配置的阈值时，自动标记帖子/聊天消息。可用的类别包括 toxicity、severe_toxicity、obscene、identity_attack、insult、threat 和 sexual_explicit。每个类别都有一个 ai_toxicity_flag_threshold_${category} 设置。

无论如何，Detoxify 可以由 Kaggle 社区实现。这是一个寻找实施者的好地方，因为这正是 Kaggle 所做的

Falco · 2024 年8 月 26 日 19:21

我们集成了 GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. 模型来处理自动帖子毒性分类，并在超过可配置阈值时执行自动标记。

我们发现，虽然对于像“品牌”拥有的实例那样对典型毒性零容忍的情况，它效果很好，但对于其他更面向社区的 Discourse 实例，毒性模型过于严格，在更宽松的实例中产生了过多的标记。

因此，我们目前的计划是弃用毒性检测，并将此功能移至我们的 AI Triage 插件，在该插件中，我们提供可自定义的提示，供管理员根据其实例允许的级别调整其自动毒性检测。

我们还计划为客户提供托管的 LLM 审核模型，例如 https://ai.google.dev/gemma/docs/shieldgemma 或 https://arxiv.org/abs/2312.06674，这些模型在我们内部针对催生 Detoxify 的原始 Jigsaw Kaggle 竞赛中使用的数据集进行的评估中表现非常好。

话题		回复	浏览量
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	856	2024 年8 月 7 日
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	404	2023 年7 月 7 日
Discourse Google Perspective API Plugin official , perspective-api	2	20976	2024 年8 月 10 日
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	719	2024 年10 月 10 日
AI flagging too sensitive Support ai , ai-toxicity	2	578	2024 年3 月 31 日

Discourse AI - 毒性

设置

附加资源

相关话题