Discourse AI - 有害性

:bookmark: このトピックでは、Discourse AI プラグインの Toxicity 機能の設定について説明します。

:person_raising_hand: 必要なユーザーレベル: 管理者

Toxicity モジュールは、Discourse インスタンス内のすべての新しい投稿とチャットメッセージの有害性スコアを自動的に分類できます。しきい値を超えるコンテンツの自動フラグ付けを有効にすることもできます。

分類はデータベースに保存されるため、プラグインを有効にして Data Explorer を使用すると、Discourse の新しいコンテンツで発生している分類のレポートをすぐに確認できます。まもなく、このプロセスを容易にするために、プラグインにデフォルトの Data Explorer クエリが出荷される予定です。

設定

  • ai_toxicity_enabled: モジュールを有効または無効にします。

  • ai_toxicity_inference_service_api_endpoint: Toxicity モジュールの API が実行されている URL。CDCK ホスティングを使用している場合は、自動的に処理されます。セルフホスティングの場合は、セルフホスティングガイドを確認してください。

  • ai_toxicity_inference_service_api_key: 上記で設定された Toxicity API の API キー。CDCK ホスティングを使用している場合は、自動的に処理されます。セルフホスティングの場合は、セルフホスティングガイドを確認してください。

  • ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: originalunbiasedmultilingual の 3 つの異なるモデルを提供しています。unbiased は、トレーニング資料によって導入されたバイアスを分類に持ち込まないようにするため、original よりも推奨されます。多言語コミュニティの場合、最後のモデルはイタリア語、フランス語、ロシア語、ポルトガル語、スペイン語、トルコ語をサポートしています。

  • ai_toxicity_flag_automatically: 特定のカテゴリの分類が設定されたしきい値を超えた場合に、投稿/チャットメッセージを自動的にフラグ付けします。利用可能なカテゴリは toxicitysevere_toxicityobsceneidentity_attackinsultthreat、および sexual_explicit です。それぞれに ai_toxicity_flag_threshold_${category} 設定があります。

  • ai_toxicity_groups_bypass: これらのグループのユーザーは、投稿が Toxicity モジュールによって分類されません。デフォルトでスタッフユーザーが含まれます。

追加リソース

「いいね!」 10