自動投稿の有害性分類を行い、設定可能な閾値を超えた場合に自動フラグを立てるために、GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. モデルを統合しました。
わかったことは、典型的な有害性に対してゼロトレランスを持つインスタンス(「ブランド」所有のインスタンスなど)ではうまく機能する一方で、よりコミュニティ指向のDiscourseインスタンスでは、有害性モデルが厳しすぎ、より寛容なインスタンスでフラグが多すぎることが判明しました。
そのため、現在の計画は有害性の非推奨とし、この機能をAIトリアージプラグインに移行することです。これにより、管理者がインスタンスで許可されているレベルに合わせて自動有害性検出を適応させるためのカスタマイズ可能なプロンプトを提供します。
また、お客様には、https://ai.google.dev/gemma/docs/shieldgemma や [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations のような、Detoxifyを生み出した元のJigsaw Kaggleコンペティションで使用されたデータセットに対する内部評価で非常に良好なパフォーマンスを示した、ホストされたモデレーションLLMを提供する予定です。