Discourse AI - 毒性

我们集成了 GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. 模型来处理自动帖子毒性分类,并在超过可配置阈值时执行自动标记。

我们发现,虽然对于像“品牌”拥有的实例那样对典型毒性零容忍的情况,它效果很好,但对于其他更面向社区的 Discourse 实例,毒性模型过于严格,在更宽松的实例中产生了过多的标记。

因此,我们目前的计划是 弃用毒性检测,并将此功能移至我们的 AI Triage 插件,在该插件中,我们提供可自定义的提示,供管理员根据其实例允许的级别调整其自动毒性检测。

我们还计划为客户提供托管的 LLM 审核模型,例如 https://ai.google.dev/gemma/docs/shieldgemmahttps://arxiv.org/abs/2312.06674,这些模型在我们内部针对催生 Detoxify 的原始 Jigsaw Kaggle 竞赛中使用的数据集进行的评估中表现非常好。

4 个赞