コミュニティでNSFW検出を設定する

Saif · 2024 年 10 月 10 日午前 4:26

これは、Discourse AI オートメーションを使用してコミュニティの NSFW コンテンツ検出を設定し、不適切な画像やテキストを識別およびモデレートするためのガイドです。

必須ユーザーレベル: 管理者

コミュニティでの NSFW 検出の設定

AI を活用した自動化を使用して、Discourse コミュニティの NSFW (職場での使用に適さない) コンテンツを自動的に検出およびモデレートします。このガイドでは、不適切な画像とテキストコンテンツの両方の自動検出を構成する方法を説明します。これにより、最小限の手動介入でコミュニティの基準を維持できます。

まとめ

このドキュメントでは、Discourse AI Post Classifier オートメーションを構成して、次のことを行います。

ビジョン対応 AI モデルを使用して NSFW 画像を検出する
不適切なテキストコンテンツと言語を識別する
問題のある投稿を自動的にフラグ付け、カテゴリ分け、モデレートする
カスタム応答とモデレーションアクションを設定する

この自動化は、大規模言語モデル (LLM) を使用して投稿コンテンツを分析し、NSFW コンテンツが検出された場合に定義済みの操作を実行します。

前提条件

NSFW 検出を設定する前に、次のものが有効になっていることを確認してください。

Discourse AI プラグイン: コア AI 機能プラグイン
Discourse Automation プラグイン: 自動化ルールを作成するために必要
Persona: NSFW コンテンツを構成するものを定義するシステムプロンプトを持つ Persona。混乱を避けるために、肯定的な分類と否定的な分類に明確な言語を使用してください。
ビジョン対応 LLM: 画像検出にのみ必要。テキストのみの検出には標準 LLM で十分です。
- Discourse ホストのお客様は、Persona を構成する際に CDCK ホスト Small LLM を選択できます。
- セルフホストの Discourse ユーザーは、サードパーティ LLM を構成する必要があります。

プロンプトの例:

画像検出の場合:

あなたは画像分類を専門とするボットです。NSFW または SAFE のいずれかのみで応答し、それ以外は何も応答しないでください。NSFW はポルノまたはゴアであり、SAFE はそれ以外すべてです。疑わしい場合は SAFE と応答してください。

テキスト検出の場合:

あなたは、ユーザー生成投稿をトリアージするために設計された高度な AI コンテンツ モデレーション システムです。あなたのタスクは、悪い言葉、不適切な用語、または NSFW (職場での使用に適さない) コンテンツを含む可能性のあるコンテンツを検出してフラグを立てることです。

NSFW コンテンツには、露骨な性的コンテンツ、暴力、ヘイトスピーチ、生々しい言葉遣い、差別、自傷行為への言及、または違法行為が含まれます。

正確に 1 つの単語で応答してください。
* 「SAFE」: 投稿は適切であり、悪いコンテンツや NSFW コンテンツは含まれていません。
* 「NSFW」: 悪い、不適切、または NSFW コンテンツが検出された場合。

コンテキストを意識し、誤検知を避けてください。

設定手順

必須プラグインの有効化

サイトの管理パネルに移動します。
Plugins > Installed Plugins に移動します。
Discourse AI と Automation の両方のプラグインを有効にします。

自動化ルールの作成

管理パネルで、Plugins > Automation に移動します。
+ Create をクリックして、新しい自動化ルールを作成します。
Triage Posts Using AI を選択します。
説明的な名前を設定します (例: 「NSFW コンテンツ検出」)。

トリガーと制限の設定

トリガーの設定:

トリガーとして Post created/edited を選択します。
必要に応じて、アクションタイプ、カテゴリ、タグ、グループ、または信頼レベルを指定して、自動化のスコープを制限します。
サイト全体に自動化を適用するには、フィールドを空白のままにします。

オプションの制限:

新規ユーザーの最初の投稿のみを対象とするなど、自動化のスコープをさらに制限するには、[What/When] セクションで追加の設定を構成します。

AI 分類の構成

システムプロンプトフィールドは、Persona に置き換えられました。この変更前に AI 自動化を使用していた場合、関連するシステムプロンプトを持つ新しい Persona が自動的に作成されます。

Persona:
NSFW 検出自動化用に定義された Persona を選択します。

検索テキスト:
自動化アクションをトリガーするプロンプトの正確な出力を入力します。上記の例を使用すると、「NSFW」と入力します。

モデレーションアクションの設定

カテゴリ化とタグ付け:

フラグ付けされた投稿を移動するカテゴリを定義します。
検出された NSFW コンテンツに追加するタグを指定します。

フラグ付けオプション:

フラグの種類を選択します: スパム (自動非表示) またはレビューキュー (手動レビュー)。
フラグ付けされたコンテンツを自動的に非表示にするには、「トピックを非表示」を有効にします。

自動応答:

システム応答の返信ユーザーを設定します。
投稿がフラグ付けされた理由を説明するカスタムメッセージを作成します。
必要に応じて AI Persona を使用して動的な応答を作成します。

注意事項

LLM の呼び出しは高価になる可能性があることに注意してください。分類子を適用する場合は、コストを注意深く監視し、常に小さなサブセットでのみ実行することを検討してください。
GPT-4o のようなパフォーマンスの高いモデルはより良い結果をもたらしますが、コストが高くなる可能性があります。しかし、LLM がさらに改善され、安価になるにつれて、コストは減少すると考えられます。

その他の用途

プロンプトは、PII (個人識別情報) の漏洩やスパム検出など、あらゆる種類の検出を実行するようにカスタマイズできます。この自動化をコミュニティの利益のためにどのように活用しているか、ぜひお聞かせください。

トピック		返信	表示
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	403	2023 年 7 月 7 日
Setting up toxicity detection in your community Site Management automation , ai , how-to , moderation	0	853	2024 年 8 月 7 日
NSFW image blurring in chat Support chat , ai	5	512	2024 年 9 月 26 日
Discourse AI - Spam detection Site Management moderation , spam , how-to , ai	22	2425	2025 年 9 月 25 日
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	680	2025 年 5 月 26 日