本主题涵盖 Discourse AI 插件的 Toxicity 功能的配置。
所需用户级别:管理员
Toxicity 模块可以自动对 Discourse 实例中的每个新帖子和聊天消息的毒性分数进行分类。您还可以启用对超出阈值的内容进行自动标记。
分类存储在数据库中,因此您可以启用该插件并使用 Data Explorer 立即报告 Discourse 中新内容的分类情况。我们很快将随插件发布一些默认的 Data Explorer 查询,以简化此过程。
设置
ai_toxicity_enabled:启用或禁用模块
ai_toxicity_inference_service_api_endpoint:Toxicity 模块的 API 运行的 URL。如果您使用 CDCK 托管,此设置将自动处理。如果您是自托管,请参阅自托管指南。
ai_toxicity_inference_service_api_key:上面配置的 Toxicity API 的 API 密钥。如果您使用 CDCK 托管,此设置将自动处理。如果您是自托管,请参阅自托管指南。
ai_toxicity_inference_service_api_model:ai_toxicity_inference_service_api_model:我们提供三种不同的模型:“original”、“unbiased”和“multilingual”。建议使用“unbiased”而不是“original”,因为它会尝试避免将训练材料中引入的偏见带入分类。对于多语言社区,最后一个模型支持意大利语、法语、俄语、葡萄牙语、西班牙语和土耳其语。
ai_toxicity_flag_automatically:当特定类别的分类超过配置的阈值时,自动标记帖子/聊天消息。可用类别包括
toxicity、severe_toxicity、obscene、identity_attack、insult、threat和sexual_explicit。每个类别都有一个ai_toxicity_flag_threshold_${category}设置。ai_toxicity_groups_bypass:这些组中的用户不会被 Toxicity 模块对其帖子进行分类。默认情况下包括管理员用户。
附加资源
我现在正在对此进行一些调整,我是否可以认为阈值越高越严格,阈值越低越宽松?
我会说阈值越高,它就越宽松。较低的阈值更容易将帖子标记为有毒,因为它触发标记所需的条件更少,因此较高的阈值需要更多的条件才能触发标记。
低阈值 = 容易跨越
高阈值 = 更难跨越
我希望有一个机制来阻止在我们的网站上进行商业活动——不是毒性本身,而是对我们的社区造成极大的损害。
这很接近,但并不是我们感兴趣的东西。
您考虑过这个方面吗?
这已包含在 Discourse AI Post Classifier - Automation rule 中。请告知我进展如何。
有人能帮我用 Google Perspective API 设置好它吗?我会在市场上放一个广告,但我认为这里更合适。
我知道这已经是去年了,但请告诉我这次实施的进展!我个人对此很关注 ^^ 话虽如此,如果我没记错的话,@Discourse,您在此页面上提到的属性确实是 Perspective 的原子指标,是通过 Detoxify 实现的,所以添加 Perspective 有点多余,对吧?
- ai_toxicity_flag_automatically:当特定类别的分类超过配置的阈值时,自动标记帖子/聊天消息。可用的类别包括
toxicity、severe_toxicity、obscene、identity_attack、insult、threat和sexual_explicit。每个类别都有一个ai_toxicity_flag_threshold_${category}设置。
无论如何,Detoxify 可以由 Kaggle 社区 实现。这是一个寻找实施者的好地方,因为这正是 Kaggle 所做的 ![]()
我们集成了 GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. 模型来处理自动帖子毒性分类,并在超过可配置阈值时执行自动标记。
我们发现,虽然对于像“品牌”拥有的实例那样对典型毒性零容忍的情况,它效果很好,但对于其他更面向社区的 Discourse 实例,毒性模型过于严格,在更宽松的实例中产生了过多的标记。
因此,我们目前的计划是 弃用毒性检测,并将此功能移至我们的 AI Triage 插件,在该插件中,我们提供可自定义的提示,供管理员根据其实例允许的级别调整其自动毒性检测。
我们还计划为客户提供托管的 LLM 审核模型,例如 https://ai.google.dev/gemma/docs/shieldgemma 或 https://arxiv.org/abs/2312.06674,这些模型在我们内部针对催生 Detoxify 的原始 Jigsaw Kaggle 竞赛中使用的数据集进行的评估中表现非常好。