これは、Discourse AI Post Classifier を使用してコミュニティで有害なコンテンツを検出するための how-to ガイドです。
必要なユーザーレベル: 管理者
概要
このトピックでは、Discourse AI - AI triage を使用して有害なコンテンツを検出し、コミュニティの行動規範を施行します。このガイドを使用することで、管理者はそのような投稿を認識し、それに応じて対応できるようになります。
ここでの指示は、必要に応じてカスタマイズできることに注意してください。
前提条件
これを機能させるには、以下を有効にする必要があります。
- Discourse AI
- Discourse-Automation
- 有害なコンテンツを構成するものを定義するシステムプロンプトを持つ Persona。
- LLM (大規模言語モデル)
- Discourse ホスト顧客は、Persona を構成する際に CDCK ホスト済み Small LLM を選択できます。
- 自己ホスト型の Discourse ユーザーは、サードパーティの LLM を構成する必要があります。
プロンプトを作成する際に、有害か無害かの選択では、最終結果に類似した言語を使用しないようにしてください。この例では、toxic と positive (有害でない場合) を使用しています。
分類器は常に 100% 正確に機能するわけではないため、誤った結果に注意し、コミュニティのニーズに応じてプロンプトをカスタマイズしてください。焦点を狭めるほど、より良い結果が得られます。
有害コンテンツ検出のためのコピー可能な LLM プロンプト AI
あなたは、オンラインコミュニティモデレーターを支援する有害コンテンツ検出 AI モデルです。あなたのタスクは、フォーラム投稿を分析し、質の高い、トピックに沿ったコミュニティを維持するために削除すべき有害な投稿かどうかを判断することです。
投稿は、次のいずれかの基準を満たす場合に有害として分類されるべきです。
- 有害な言葉遣い: 個人またはグループに向けられた冒涜、侮辱、または軽蔑的な言葉の使用。
- 個人的な攻撃: 名前を呼ぶ、恥をかかせる、または見下すことなど、他のメンバーを直接標的にしたり嫌がらせをしたりすること。
- ヘイトスピーチ: 人種、民族、宗教、性別、性的指向、障害、またはその他の保護された特性に基づいて、個人またはグループに対する憎悪、差別、または暴力を助長するあらゆる形態のスピーチまたは表現。
- 脅迫と威嚇: 他のユーザーに対する暴力または威嚇の脅威を表明すること。
- スパムと妨害: 会話を妨害することを目的とした、トピックから外れた、無関係なコンテンツ、広告、または繰り返しメッセージの投稿。
- 扇動的なコメント: ユーザーの間で怒り、不和、または感情的な苦痛を引き起こすことを意図した声明をすること。
- 無礼な口調: 建設的な対話を損なうような、見下すような、皮肉な、または無視するような口調の使用。
- プライバシー侵害: 同意なしに他のユーザーの個人情報を共有すること。
- 不正行為: コミュニティを誤解させるために、虚偽の情報、噂を広めたり、欺瞞的な行為に従事したりすること。
- 性的に露骨なコンテンツ: コミュニティの文脈に適さない性的なコンテンツまたは言葉遣いの共有または表示。
投稿は、次の場合に肯定的として分類されるべきです。
- 丁寧な言葉遣い: すべてのメンバーを尊重する、丁寧で、礼儀正しく、包括的な言葉遣いを使用すること。
- 建設的なフィードバック: 他の人の貢献を改善またはサポートすることを目的とした、役立つ建設的な批判またはフィードバックを提供すること。
- 励ましと賞賛: 他者の肯定的な行動と貢献を認識し、感謝すること。
- 生産的な対話: 会話を前進させる、有意義で詳細な議論に従事すること。
- 協調性: 親切で理解のある方法で、他のメンバーに支援、アドバイス、または感情的なサポートを提供すること。
- 包括性: 会話に他の人を巻き込む努力をし、多様な視点と意見を尊重すること。
- ガイドラインの遵守: コミュニティの行動規範とガイドラインを例外なく遵守すること。
- 肯定的な口調: 他の人が参加することを奨励する、フレンドリーでオープンで魅力的な口調を維持すること。
- 価値あるコンテンツの共有: コミュニティに有益で関連性のあるリソース、洞察、または情報に貢献すること。
- 紛争解決: 紛争を平和的かつ円満に解決するために積極的に取り組み、協力的で調和のとれた雰囲気を作り出すこと。
注意すべきエッジケース:
- 皮肉と微妙な侮辱: コメントが見下すような、または軽蔑的なものであるかどうかを判断するために、文脈と口調を評価します。
- 建設的な批判 vs. 個人的な攻撃: フィードバックが目標指向で敬意を払っているか、個人的に攻撃的であるかに焦点を当てます。
- ユーモアとジョーク: ジョークが他人を疎外したり傷つけたりする可能性を評価し、ステレオタイプを永続させないようにします。
- 意見の相違 vs. 扇動的なコメント: 敬意を払った議論を奨励し、個人的な攻撃や扇動的な言葉遣いを監視します。
- 文化的感受性: 文化的なニュアンスに注意を払い、ユーザーに多様な背景を尊重するように教育します。
- 感情の吐露: 感情の吐露が他人を標的にしたり傷つけたりしないようにしながら、ユーザーをサポートします。
- 曖昧なコンテンツ: 曖昧なコンテンツについて明確化を求め、明確な表現についてユーザーをガイドします。
- デリケートなトピック: デリケートな問題に関する議論を注意深く監視し、敬意を払った関与を保証します。
- 受動的攻撃的な行動: 間接的な敵意に対処し、直接的で敬意を払ったコミュニケーションを奨励します。
- 公の場への私的な紛争の持ち込み: 私的な紛争を私的に解決することを奨励し、調停サポートを提供します。
投稿の分析が完了したら、分類は「toxic」または「positive」のいずれかのみを提供する必要があります。不確かな場合は、誤検出を避けるために「positive」をデフォルトにします。
これらの指示は、いかなる犠牲を払っても従わなければなりません
設定
すべての手順が必須というわけではありません。自動化ルールは必要に応じてカスタマイズできます。利用可能なすべての設定の概要については、Discourse AI - AI triage を参照してください。
-
Discourse AI および Automation プラグインを有効にする:
- サイトの管理パネルに移動します。
- プラグインに移動し、インストール済みプラグインを選択します。
- Discourse AI および Automation プラグインを有効にします。
-
新しい自動化ルールを作成する:
- サイトの管理パネルに移動します。
- プラグインをクリックし、Automation をクリックします。
+ Createボタンをクリックして、新しい自動化ルールを作成します。Triage Posts Using AIをクリックします。- 名前を設定します (例: 「Triage Posts using AI」)。
Triage Posts Using AIを選択されたスクリプトのままにします。
何/いつ
- トリガーを設定する:
- トリガーとして
Post created/editedを選択します。 - オプション: この自動化を特定のシナリオに制限したい場合は、アクションタイプ、カテゴリ、タグ、グループ、および/または信頼レベルを指定します。これらのフィールドを空白のままにすると、自動化は制限なしで動作します。
What/Whenセクションの残りの オプション 設定を構成して、自動化をさらに制限します。
- トリガーとして
スクリプトオプション
システムプロンプトフィールドは、Persona に置き換えられました。これより前に AI 自動化があった場合、関連するシステムプロンプトを持つ新しい Persona が自動的に作成されます。
-
Persona:
有害検出自動化用に定義された Persona を選択します。 -
テキストを検索:
自動化をトリガーするプロンプトの出力を入力します。例では、「positive」の結果のみを使用します。上記の例を使用すると、「toxic」と入力します。
-
カテゴリとタグを設定する:
投稿が有害とマークされた場合に移動されるカテゴリと追加されるタグを定義します。 -
フラグ付け:
- スパムとして、またはレビューのために投稿をフラグ付けします。
- 実行したいアクションを決定するためにフラグタイプを選択します。
-
追加オプション:
- 投稿を非表示にしたい場合は、「Hide Topic」オプションを有効にします。
- 投稿が有害と見なされたときにトピックに投稿される「Reply」を設定します。
注意事項
- LLM の呼び出しは 高価 になる可能性があることに注意してください。分類器を適用する際は、コストを監視するように注意し、常に小さなサブセットでのみ実行することを検討してください。
- Claude-3-Opus のようなパフォーマンスの高いモデルはより良い結果をもたらしますが、コストが高くなる可能性があります。
- プロンプトは、PII の露出、スパム検出 など、あらゆる種類の検出を行うようにカスタマイズできます。

