Discourse AI - 有害性

:bookmark: このトピックでは、Discourse AI プラグインの Toxicity 機能の設定について説明します。

:person_raising_hand: 必要なユーザーレベル: 管理者

Toxicity モジュールは、Discourse インスタンス内のすべての新しい投稿とチャットメッセージの有害性スコアを自動的に分類できます。しきい値を超えるコンテンツの自動フラグ付けを有効にすることもできます。

分類はデータベースに保存されるため、プラグインを有効にして Data Explorer を使用すると、Discourse の新しいコンテンツで発生している分類のレポートをすぐに確認できます。まもなく、このプロセスを容易にするために、プラグインにデフォルトの Data Explorer クエリが出荷される予定です。

設定

  • ai_toxicity_enabled: モジュールを有効または無効にします。

  • ai_toxicity_inference_service_api_endpoint: Toxicity モジュールの API が実行されている URL。CDCK ホスティングを使用している場合は、自動的に処理されます。セルフホスティングの場合は、セルフホスティングガイドを確認してください。

  • ai_toxicity_inference_service_api_key: 上記で設定された Toxicity API の API キー。CDCK ホスティングを使用している場合は、自動的に処理されます。セルフホスティングの場合は、セルフホスティングガイドを確認してください。

  • ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: originalunbiasedmultilingual の 3 つの異なるモデルを提供しています。unbiased は、トレーニング資料によって導入されたバイアスを分類に持ち込まないようにするため、original よりも推奨されます。多言語コミュニティの場合、最後のモデルはイタリア語、フランス語、ロシア語、ポルトガル語、スペイン語、トルコ語をサポートしています。

  • ai_toxicity_flag_automatically: 特定のカテゴリの分類が設定されたしきい値を超えた場合に、投稿/チャットメッセージを自動的にフラグ付けします。利用可能なカテゴリは toxicitysevere_toxicityobsceneidentity_attackinsultthreat、および sexual_explicit です。それぞれに ai_toxicity_flag_threshold_${category} 設定があります。

  • ai_toxicity_groups_bypass: これらのグループのユーザーは、投稿が Toxicity モジュールによって分類されません。デフォルトでスタッフユーザーが含まれます。

追加リソース

「いいね!」 10

現在これを少し調整していますが、しきい値が高いほど厳しく、低いほど寛容であると仮定するのは正しいですか?

「いいね!」 1

閾値が高いほど、より寛容になると言えます。閾値が低いと、フラグが立てられるのに必要なものが少なくなるため、投稿が有害であるとフラグが立てられやすくなります。したがって、閾値が高いほど、フラグが立てられるのに必要なものが多くなります。
低い閾値 = 簡単に超えられる
高い閾値 = 超えるのが難しい

「いいね!」 2

サイトでの営利活動の試みを検知する仕組みを設けたいと考えています。これは、それ自体が有害というわけではありませんが、コミュニティに非常に大きな損害を与えます。

これは近いですが、私たちが求めているものとは少し違います。

この側面を検討しましたか?

それはDiscourse AI Post Classifier - Automation ruleでカバーされています。結果をお知らせください。

「いいね!」 4

Google Perspective API の設定を手伝っていただけますか?マーケットプレイスに広告を掲載することも考えましたが、こちらの方が適切かと思いました。

1年前のことですが、この実装がどのように進んだか教えていただけますでしょうか!個人的に興味があります ^^ それはさておき、@Discourse、もし私が間違っていたら訂正してください。このページで言及されている属性は、Detoxify を通じて実装された Perspective のアトミックメトリクスですよね?そうであれば、Perspective を追加するのは少し無意味ではありませんか?

  • ai_toxicity_flag_automatically: 特定のカテゴリの分類が設定されたしきい値を超えた場合に、投稿/チャットメッセージを自動的にフラグ付けします。利用可能なカテゴリは toxicitysevere_toxicityobsceneidentity_attackinsultthreatsexual_explicit です。それぞれに ai_toxicity_flag_threshold_${category} 設定があります。

いずれにしても、DetoxifyKaggle community コミュニティによって実装できます。Kaggle はまさにそのようなことを行う場所なので、実装してくれる人を見つけるのに最適な場所です :slight_smile:

「いいね!」 2

自動投稿の有害性分類を行い、設定可能な閾値を超えた場合に自動フラグを立てるために、GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. モデルを統合しました。

わかったことは、典型的な有害性に対してゼロトレランスを持つインスタンス(「ブランド」所有のインスタンスなど)ではうまく機能する一方で、よりコミュニティ指向のDiscourseインスタンスでは、有害性モデルが厳しすぎ、より寛容なインスタンスでフラグが多すぎることが判明しました。

そのため、現在の計画は有害性の非推奨とし、この機能をAIトリアージプラグインに移行することです。これにより、管理者がインスタンスで許可されているレベルに合わせて自動有害性検出を適応させるためのカスタマイズ可能なプロンプトを提供します。

また、お客様には、https://ai.google.dev/gemma/docs/shieldgemma[2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations のような、Detoxifyを生み出した元のJigsaw Kaggleコンペティションで使用されたデータセットに対する内部評価で非常に良好なパフォーマンスを示した、ホストされたモデレーションLLMを提供する予定です。

「いいね!」 4