コミュニティでのトキシシティ検出の設定方法

Discourse · 2024 年 8 月 7 日午後 4:02

これは、Discourse AI 投稿分類器を使用してコミュニティで有害なコンテンツを検出するための how-to ガイドです。

必要なユーザーレベル: 管理者

概要

このトピックでは、Discourse AI - AI triage を使用して有害なコンテンツを検出し、コミュニティの行動規範を施行する方法を説明します。このガイドを使用すると、管理者はそのような投稿を認識し、それに応じて対応することができます。

ここでの手順は、必要に応じてカスタマイズできることに注意してください。

前提条件

これが機能するためには、以下のものが有効になっている必要があります。

Discourse AI
Discourse-Automation
有害なコンテンツを構成するものを定義するシステムプロンプトを持つエージェント。
LLM（大規模言語モデル）
- Discourse ホスト型のお客様は、エージェントを設定する際に、当社の CDCK ホスト型スモール LLM を選択できます。
- セルフホスト型 Discourse ユーザーは、サードパーティの LLM を設定する必要があります。

プロンプトを作成する際は、有害か無害かの選択で、最終結果に類似した言語を使用しないようにしてください。この例では、「toxic」（有害）と「positive」（無害）を使用しています。

分類器は常に 100% 正確に機能するわけではないため、誤った結果に注意し、コミュニティのニーズに応じてプロンプトをカスタマイズしてください。焦点が狭いほど優れています。

有害コンテンツ検出のためのコピー可能な LLM プロンプト AI

あなたはオンラインコミュニティモデレーターを支援する有害コンテンツ検出 AI モデルです。あなたのタスクは、高品質でトピックに沿ったコミュニティを維持するために、フォーラム投稿を分析し、削除すべき有害な投稿であるかどうかを判断することです。

投稿は、次のいずれかの基準を満たす場合に有害として分類されるべきです。

有害な言葉遣い: 個人またはグループを対象とした、わいせつな言葉、侮辱、または中傷的な用語の使用。
個人的な攻撃: 氏名で呼ぶ、恥をかかせる、または見下すなど、他のメンバーを直接的に対象としたりハラスメントを行ったりすること。
ヘイトスピーチ: 人種、民族、宗教、性別、性的指向、障害、またはその他の保護された特性に基づいて、個人またはグループに対する憎悪、差別、または暴力を助長するあらゆる形式のスピーチや表現。
脅迫と威嚇: 他のユーザーに対する暴力や威嚇の表明。
スパムと妨害: 会話を妨害することを目的とした、トピック外の、無関係なコンテンツ、広告、または反復的なメッセージの投稿。
扇動的なコメント: ユーザー間で怒り、不和、または感情的な苦痛を引き起こすことを意図した発言。
無礼な口調: 建設的な対話を損なうような、見下した、皮肉な、または軽視するような口調の使用。
プライバシーの侵害: 他のユーザーの個人情報を本人の同意なしに共有すること。
不正な行為: コミュニティを誤解させるために虚偽の情報、噂を広めたり、ごまかしの行為に従事したりすること。
性的に露骨なコンテンツ: コミュニティの文脈に不適切ないかなる性的なコンテンツや言葉遣いの共有または表示。

投稿は、次の場合に肯定的として分類されるべきです。

礼儀正しい言葉遣い: すべてのメンバーを尊重する、丁寧で、礼儀正しく、包括的な言葉遣いを使用すること。
建設的なフィードバック: 他の人の貢献を改善またはサポートすることを目的とした、役立つ建設的な批判やフィードバックを提供すること。
奨励と称賛: 他者の積極的な行動や貢献を認め、評価すること。
生産的な対話: 会話を前進させる、有意義で詳細な議論に従事すること。
協調性: 親切で理解のある態度で、他のメンバーに支援、アドバイス、または感情的なサポートを提供すること。
包括性: 会話に他の人を巻き込み、多様な視点や意見を尊重するよう努めること。
ガイドラインの順守: 行動規範とガイドラインを例外なく遵守すること。
肯定的な口調: 他の人が参加することを奨励する、友好的で、オープンで、魅力的な口調を維持すること。
価値あるコンテンツの共有: コミュニティに有益で関連性のあるリソース、洞察、または情報を提供すること。
紛争解決: 協力的で調和の取れた雰囲気を育みながら、紛争を平和的かつ友好的に解決するために積極的に取り組むこと。

注意すべきエッジケース：

皮肉と微妙な侮辱: コメントが人を軽視したり見下したりしていないかを判断するために、文脈と口調を評価します。
建設的な批判と個人的な攻撃: フィードバックが目的志向で丁寧であるか、それとも個人的な攻撃であるかに焦点を当てます。
ユーモアとジョーク: ジョークが他の人を疎外したり傷つけたりする可能性を評価し、ステレオタイプを永続させないようにします。
不同意と扇動的なコメント: 個人的な攻撃や扇動的な言葉遣いを監視しながら、丁寧な議論を奨励します。
文化的な感受性: 文化的なニュアンスに注意を払い、多様な背景を持つユーザーを尊重するようユーザーを指導します。
感情的な発散: 発散が他人を対象としたり傷つけたりしないようにしながら、ユーザーをサポートします。
曖昧なコンテンツ: 曖昧なコンテンツについては明確化を求め、ユーザーに明確な表現を指導します。
機密性の高いトピック: 機密性の高い問題に関する議論への丁寧な関与を確実にし、注意深く監視します。
受動的攻撃的な行動: 間接的な敵意に対処し、直接的で丁寧なコミュニケーションを奨励します。
公の場に漏れ出る私的な対立: 私的な紛争は私的に解決するよう奨励し、調停のサポートを提供します。

投稿の分析が完了したら、「toxic」または「positive」のいずれかの分類のみを提供する必要があります。確信が持てない場合は、誤検出を避けるために「positive」をデフォルトとしてください。

これらの指示は絶対に守らなければなりません

設定

すべてのステップが必須というわけではなく、オートメーションルールは必要に応じてカスタマイズできます。利用可能なすべての設定の概要については、Discourse AI - AI triage をご覧ください。

Discourse AI および Automation プラグインを有効にする:

サイトの管理パネルに移動します。
プラグイン > インストール済みプラグインに移動します。
Discourse AI および Automation プラグインを有効にします。

新しいオートメーションルールを作成する:

サイトの管理パネルに移動します。
プラグイン > Automation をクリックします。
+ 作成 ボタンをクリックして、新しいオートメーションルールの作成を開始します。
Triage Posts Using AI をクリックします。
名前を設定します（例：「Triage Posts using AI」）。
Triage Posts Using AI を選択されたスクリプトとしてそのままにします。

実行条件/タイミング

トリガーを設定する:

トリガーとして 投稿作成/編集済み を選択します。
オプションで、このオートメーションを特定のシナリオに制限したい場合は、アクションの種類、カテゴリ、タグ、グループ、および/または信頼レベルを指定します。これらのフィールドを空白のままにすると、オートメーションは制限なく動作します。
実行条件/タイミング セクションに残りのオプション設定を設定して、オートメーションをさらに制限します。

スクリプトオプション

システムプロンプトフィールドは、エージェントの導入により非推奨となりました。この変更より前に AI オートメーションを使用していた場合、関連するシステムプロンプトを持つ新しいエージェントが自動的に作成されます。

エージェント:

有害コンテンツ検出オートメーション用に定義されたエージェントを選択します。
テキストを検索:

オートメーションをトリガーするプロンプトの出力を入力します。ここでは「positive」の結果のみを入力します。上記の例を使用する場合、toxic と入力します。

カテゴリとタグを設定する:

投稿が有害とマークされた場合に移動されるカテゴリと追加されるタグを定義します。
フラグ設定:

「投稿にフラグを立てる」オプションを有効にして、投稿にフラグを立てます。
実行するアクションを決定するためのフラグタイプを選択します。利用可能なオプション：
- 投稿をレビューキューに追加 — 投稿をレビューキューに送信し、モデレーターアクションを待ちます。
- 投稿をレビューキューに追加して非表示にする — キューに追加して投稿を即座に非表示にします。
- 投稿をレビューキューに追加して削除する — キューに追加して投稿をソフト削除します。
- 投稿をレビューキューに追加して削除し、ユーザーをサイレンスにする — キューに追加して投稿をソフト削除し、投稿者をサイレンスにします。
- スパムとしてフラグを立てて投稿を非表示にする — 投稿をスパムとしてフラグを立てて非表示にします。
- スパムとしてフラグを立てて非表示にし、ユーザーをサイレンスにする — スパムとしてフラグを立てて投稿を非表示にし、投稿者をサイレンスにします。

追加オプション:

トピックを非表示にしたい場合は、「トピックを非表示」オプションを有効にします。
投稿が有害であると見なされたときにトピックに投稿される「返信」を設定します。オプションで「返信ユーザー」を指定できます。
「返信エージェント」オプションを使用して、AI エージェントに動的な返信を生成させます（設定されている場合、定型文の返信よりも優先されます）。
返信がスタッフにのみ表示されるようにするには、「ささやきとして返信」を有効にします。
コンテンツがフラグ付けされたときに投稿者にプライベートメッセージ (PM) で通知するには、「PM で投稿者に通知」を有効にします。オプションで PM 送信ユーザーとカスタムメッセージを指定できます。

注意点

LLM 呼び出しは高価になる場合があることに留意してください。分類器を適用する際は、コストを監視するように注意し、常に少数のサブセットでのみ実行することを検討してください。
パフォーマンスの高いモデルほど良い結果が得られますが、コストが高くなる可能性があることに注意してください。
プロンプトは、PII (個人を特定できる情報) の漏洩、スパム検出など、あらゆる種類の検出を実行するようにカスタマイズできます。

トピック		返信	表示
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	467	2023 年 7 月 7 日
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	1	1250	2026 年 3 月 2 日
What's next for Toxicity detection in Discourse AI Announcements ai-toxicity , automation , ai	8	494	2024 年 12 月 5 日
Experiments with AI based moderation on Discourse Meta Community Building moderation , ai	11	1105	2025 年 5 月 26 日
Discourse AI - AI triage Site Management how-to , ai , automation	50	5512	2025 年 7 月 27 日

コミュニティでのトキシシティ検出の設定方法

概要

前提条件

設定

実行条件/タイミング

スクリプト オプション

注意点

関連トピック

スクリプトオプション