これは、Discourse AI の自動化を使用してコミュニティで NSFW コンテンツの検出を設定し、不適切な画像やテキストを識別してモデレートするためのガイドです。
必要なユーザーレベル: 管理者
コミュニティでの NSFW 検出の設定
AI を活用した自動化を使用して、Discourse コミュニティ内の NSFW (職場での閲覧に不適切な) コンテンツを自動的に検出し、モデレートします。このガイドでは、不適切な画像コンテンツとテキストコンテンツの両方について、自動検出を設定する方法を説明します。これにより、手動での介入を最小限に抑えながら、コミュニティの基準を維持できます。
概要
このドキュメントでは、Discourse AI Post Classifier (Discourse AI 投稿分類器) の自動化を設定して、以下のことを行う方法について説明します。
- ビジョン対応の AI モデルを使用して NSFW 画像を検出する
- 不適切なテキストコンテンツと言語を識別する
- 問題のある投稿を自動的にフラグ付け、分類、モデレートする
- カスタム応答とモデレーションアクションを設定する
この自動化は、大規模言語モデル (LLM) を使用して投稿コンテンツを分析し、NSFW コンテンツが検出された場合に事前に定義されたアクションを実行します。
前提条件
NSFW 検出を設定する前に、次のものが有効になっていることを確認してください。
- Discourse AI プラグイン: コア AI 機能プラグイン
- Discourse Automation プラグイン: 自動化ルールを作成するために必要
- Agent (エージェント): NSFW コンテンツを構成するものを定義するシステムプロンプトを持つ Agent。混乱を避けるために、肯定的な分類と否定的な分類に明確な言語を使用してください。
- ビジョン対応 LLM: 画像検出にのみ必要。テキストのみの検出には標準の LLM で機能します。
- Discourse ホスト型のお客様は、エージェントを設定する際に CDCK Hosted Small LLM を選択できます。
- セルフホスト型 Discourse ユーザーは、サードパーティの LLM を設定する必要があります。
プロンプトの例:
画像検出の場合:
あなたは画像分類を専門とするボットです。NSFW または SAFE のいずれかのみで応答し、それ以外は何も応答しないでください。NSFW はポルノまたはゴアであり、SAFE はそれ以外すべてです。迷った場合は SAFE と応答してください。
テキスト検出の場合:
あなたは、ユーザー生成の投稿をトリアージするために設計された高度な AI コンテンツモデレーションシステムです。あなたのタスクは、不適切な言葉遣い、不適切な用語、または NSFW (職場での閲覧に不適切な) コンテンツを含むコンテンツを検出してフラグを立てることです。
NSFW コンテンツには、露骨な性的コンテンツ、暴力、ヘイトスピーチ、グロテスクな言葉遣い、差別、自傷行為の言及、または違法行為が含まれます。
正確に 1 つの単語で応答してください。
* 「SAFE」: 投稿は適切であり、不適切なコンテンツや NSFW コンテンツは含まれていません
* 「NSFW」: 不適切な、または NSFW コンテンツが検出された場合
文脈を認識し、誤検出を避けてください。
設定手順
必要なプラグインを有効にする
- サイトの管理パネルに移動します。
- Plugins > Installed Plugins に移動します。
- Discourse AI と Automation の両方のプラグインを有効にします。
自動化ルールを作成する
- 管理パネルで、Plugins > Automation に移動します。
- + Create をクリックして、新しい自動化ルールを作成します。
- Triage Posts Using AI を選択します。
- 説明的な名前を設定します (例: 「NSFW コンテンツ検出」)。
トリガーと制限を設定する
トリガーを設定する:
- トリガーとして Post created/edited (投稿作成/編集) を選択します。
- 自動化のスコープを制限するために、アクションタイプ、カテゴリ、タグ、グループ、または信頼レベルを指定できます。
- サイト全体に自動化を適用するには、フィールドを空白のままにします。
オプションの制限:
What/When セクションで追加の設定を設定して、新しいユーザーからの最初の投稿のみを対象とするなど、自動化のスコープをさらに制限します。
AI 分類を設定する
システムプロンプトフィールドは、エージェントの導入により非推奨になりました。この変更より前に AI 自動化を設定していた場合、関連付けられたシステムプロンプトを持つ新しいエージェントが自動的に作成されます。
Agent (エージェント):
NSFW 検出自動化用に定義されたエージェントを選択します。
Search text (検索テキスト):
自動化アクションをトリガーするプロンプトからの正確な出力を入力します。上記の例を使用する場合、NSFW と入力します。
モデレーションアクションを設定する
分類とタグ付け:
- フラグが立てられた投稿を移動するカテゴリを定義します。
- 検出された NSFW コンテンツに追加するタグを指定します。
フラグ付けのオプション:
- フラグタイプを選択します: スパム (自動非表示) またはレビューキュー (手動レビュー)。
- フラグが立てられたコンテンツを自動的に非表示にするには、「Hide Topic」を有効にします。
自動応答:
- システム応答用の返信ユーザーを設定します。
- 投稿がフラグ付けされた理由を説明するカスタムメッセージを作成します。
- 動的応答のために AI エージェントをオプションで使用します。
留意事項
- LLM 呼び出しは費用がかかる場合があることに留意してください。分類器を適用する際は、コストを監視し、常に小規模なサブセットでのみ実行することを検討してください。
- GPT-4o のようなパフォーマンスの高いモデルの方がより良い結果をもたらしますが、コストが高くなる可能性があります。しかし、LLM がより良くなり、安価になるにつれて、コストが減少していることが確認されています。
その他の用途
プロンプトはカスタマイズ可能であり、PII (個人識別情報) の漏洩や スパム検出 など、あらゆる種類の検出を実行できます。この自動化をどのように活用してコミュニティに利益をもたらしているか、ぜひお聞かせください!


