この機能はDiscourse AIの一部となりました。このプラグインは非推奨です。
|||-|
| 概要 | Disorder は、Discourse フォーラム上の潜在的に有害なコンテンツを自動的にフラグ付けすることで、モデレーターを支援します。
| リポジトリリンク | https://github.com/xfalcox/disorder
| インストールガイド | Discourse でプラグインをインストールする方法
公式ホスティングサービスをご利用の場合は、このプラグインへの関心をお知らせいただくためにサポートにご連絡ください。
有害性
@hawk が Dealing with Toxicity in Online Communities で述べたように、コミュニティ内の有害性を管理することは非常に重要です。
Discourse は標準で、コミュニティ内の有害性を管理するためのさまざまなツールを備えていますが、私たちは常にそれをさらに改善する方法を研究しています。特に、オンラインフォーラムにおける機械学習と AI の可能な応用について研究してきました。これは現在、すべてのコミュニティで利用可能な実験的なプラグインです。
プラグイン
Disorder は人工知能と機械学習を活用してコミュニティのモデレーションを支援し、モデレーションチームが潜在的に問題のあるコンテンツを把握しやすくし、さらにはユーザーが有害な投稿を送信前に修正するように促すこともできます。
これは Discourse でセルフホストされた ML モデルを使用する最初の試みであり、単純なモデルですが、将来的にさらに複雑なモデルを適用するためのパターンとして再利用できます。
機能
バックグラウンドフラグ付け
これは Disorder の主な動作モードであり、ユーザーには完全に透過的で、ユーザーは何も変更に気づきません。
新しい投稿(または Discourse Chat を使用したチャットメッセージ)が作成されると、非同期に分類キューに入れられます。分類結果が設定可能なしきい値を超えた場合、投稿/チャットメッセージはフラグ付けされ、モデレーションチームに警告され、最終的な決定を下すことができます。
新規投稿介入
予防が最善の薬だと考えるなら、このより積極的なオプションに興味があるかもしれません。
新しい投稿の同期分類を有効にすることができます。この分類が有害性の設定可能なしきい値を超えた場合、新しい投稿フローで介入がトリガーされ、ユーザーにメッセージをレビューしてコミュニティのルールで定められた境界外のものを修正するように求められます。
これは一度だけ発生し、モーダルを閉じると、ユーザーは通常どおり投稿できるようになります。
仕組み
このプラグインは、Detoxify のオープンソースモデルを統合し、リモート API 呼び出しモデルを使用して、管理者が推論レートを各コミュニティのニーズに合わせて適切にスケーリングできるようにします。
Discourse がコンテンツ分類を実行するために呼び出す単純な HTTP API を提供するイメージを提供します。これは、Discourse を実行しているのと同じサーバー、またはまったく別のサーバーで実行できます。
Discourse プラグインは、新しい投稿/新しいチャットメッセージのイベントをリッスンし、バックグラウンドキューに分類ジョブをエンキューします。結果はデータベースに保存されるため、レポートを抽出でき、フラグの精度を追跡できるように、別のボットユーザーを使用してコンテンツにフラグを付けます。
オプション
まず、プラグインはすぐに動作するため、すぐに設定を変更する必要はありません。ただし、プラグインの動作を変更したい場合は、いくつかの調整可能なノブがあります。
プラグインオプションで選択できる 3 つの異なる分類モデルを提供しています。
- unbiased (デフォルト): 有害性分類における意図しないモデルバイアスを減らそうとするモデル。
- multilingual: イタリア語、フランス語、ロシア語、ポルトガル語、スペイン語、トルコ語を分類できるモデル。
- original: 最も単純なモデル。
また、プラグインが以下を行うかどうかを調整できます。
- 自動フラグ付け
- 有害な投稿に対する同期介入(警告付き)(実験的)
- 有害な投稿に対する同期介入(推奨されません)
上記はすべて、コメントが各分類タイプのしきい値を超えていると分類された場合にのみ発生します。
- toxicity
- severe_toxicity
- identity_attack
- insult
- threat
- sexual_explicit
自動アクションの各分類しきい値を調整できます。
分類サービス
プラグインはすぐに動作するようにプリセットされています。そのため、ユーザーコンテンツを分類するために Discourse (CDCK) が実行しているサービスに連絡しています。classifier API サービスはオープンソースであり、必要に応じてサービスの独自のコピーを実行できます。



