コミュニティでのNSFW検出の設定

:bookmark: これは、Discourse AIの自動化を使用して不適切な画像やテキストを識別およびモデレートすることにより、コミュニティでNSFWコンテンツ検出を設定するためのガイドです。

:person_raising_hand: 必要なユーザーレベル: 管理者

コミュニティでNSFW検出を設定する

AIを活用した自動化を使用して、Discourseコミュニティ内のNSFW(職場での閲覧に不適切な)コンテンツを自動的に検出し、モデレートします。このガイドでは、不適切な画像とテキストコンテンツの両方の自動検出を設定する方法を説明し、手動での介入を最小限に抑えてコミュニティの基準を維持できるようにします。

概要

このドキュメントでは、Discourse AIのAIを使用して投稿をトリアージする自動化を設定し、以下のことを行います。

  • ビジョン対応のAIモデルを使用してNSFW画像を検出する
  • 不適切なテキストコンテンツと言語を特定する
  • 問題のある投稿を自動的にフラグ付け、分類し、モデレートする
  • カスタム応答とモデレーションアクションを設定する

この自動化は大規模言語モデル(LLM)を使用して投稿コンテンツを分析し、NSFWコンテンツが検出された場合に事前に定義されたアクションを実行します。

前提条件

NSFW検出を設定する前に、以下のものが有効になっていることを確認してください。

  • Discourse AIプラグイン: コアAI機能プラグイン
  • Discourse Automationプラグイン: 自動化ルールを作成するために必要です
  • エージェント: NSFWコンテンツを構成するものを定義するシステムプロンプトを持つエージェント。誤解を避けるために、肯定的な分類と否定的な分類に明確な言語を使用してください。
  • ビジョン対応LLM: 画像検出にのみ必要です。テキストのみの検出には標準のLLMで十分です。LLMモデルとエージェントの両方で「Vision enabled(ビジョン対応)」がオンになっていることを確認してください。
    • Discourseホスト型のお客様は、エージェントを設定する際にCDCKホスト型スモールLLMを選択できます。
    • セルフホスト型Discourseユーザーは、サードパーティLLMを設定する必要があります。

プロンプトの例:

画像検出の場合:

あなたは画像分類を専門とするボットです。NSFWまたはSAFEのいずれかでのみ応答し、他は応答しないでください。NSFWはポルノまたはゴアであり、SAFEはそれ以外すべてです。迷った場合はSAFEと応答してください。

テキスト検出の場合:

あなたは、ユーザー生成の投稿をトリアージするために設計された高度なAIコンテンツモデレーションシステムです。あなたのタスクは、悪い言葉、不適切な用語、またはNSFW(職場での閲覧に不適切な)コンテンツを含むコンテンツを検出してフラグを立てることです。

NSFWコンテンツには、露骨な性的コンテンツ、暴力、ヘイトスピーチ、露骨な言葉遣い、差別、自傷行為への言及、または違法行為が含まれます。

正確に1つの単語で応答してください。
* 「SAFE」: 投稿は適切であり、悪いコンテンツやNSFWコンテンツは含まれていません
* 「NSFW」: 悪い、不適切、またはNSFWコンテンツが検出された場合

文脈を認識し、誤検知を避けてください。

設定手順

必要なプラグインを有効にする

  1. サイトの管理パネルに移動します
  2. Plugins > Installed Plugins に移動します
  3. Discourse AIAutomationの両方のプラグインを有効にします

自動化ルールを作成する

  1. 管理パネルで、Plugins > Automationに移動します
  2. 新しい自動化ルールを作成するには**+ Create**をクリックします
  3. Triage Posts Using AIを選択します
  4. 説明的な名前を設定します(例: “NSFW Content Detection”)

トリガーと制限を設定する

トリガーを設定します:

  • 新しい投稿または編集された投稿をスキャンするためのトリガーとしてPost created/editedを選択します
  • 代わりに、指定された期間返信がないトピックをトリアージするためにStalled topicを選択します
  • 自動化のスコープを制限するために、アクションタイプ、カテゴリ、タグ、グループ、信頼レベル、または投稿フィーチャーを指定できます
  • サイト全体に自動化を適用するには、フィールドを空白のままにします

オプションの制限(Post created/editedトリガー):
自動化のスコープをさらに限定するために、追加の設定を構成します。

  • 新しいトピックのみを対象とする場合はFirst post onlyまたはOriginal post only
  • ユーザーの最初のトピックのみを対象とする場合はFirst topic only
  • 画像ベースのNSFW検出に役立つ、画像、リンク、コード、またはアップロードを含む投稿に制限するためのPost features
  • 通常のトピック、公開トピック、またはプライベートメッセージに制限するためのRestricted archetype

AI分類を設定する

:spiral_notepad: システムプロンプトフィールドはエージェントへの移行により非推奨となりました。この変更より前にAI自動化を設定していた場合、関連するシステムプロンプトを持つ新しいエージェントが自動的に作成されます。

Agent:
NSFW検出自動化のために定義されたエージェントを選択します。

Search text:
自動化アクションをトリガーするプロンプトからの正確な出力を入力します。上記の例を使用する場合、NSFWと入力します。

Advanced options:

  • Max Post Tokens: LLMに送信される投稿のトークン数を制限します
  • Max output tokens: モデルが生成できるトークン数の上限を設定します
  • Stop Sequences: モデルが特定の値に遭遇したときに生成を停止するように指示します

モデレーションアクションを設定する

分類とタグ付け:

  • フラグが立てられた投稿を移動するカテゴリを定義します
  • 検出されたNSFWコンテンツに追加するタグを指定します

フラグオプション:

  • Flag postを有効にしてフラグ設定をアクティブにし、フラグの種類を選択します。
    • Add post to review queue — 投稿を手動モデレーターレビューのためにレビューキューに追加します
    • Add post to review queue and hide post — レビューキューに追加し、投稿を直ちに非表示にします
    • Add post to review queue and delete post — レビューキューに追加し、投稿をソフト削除します
    • Add post to review queue, delete post and silence user — レビューキューに追加し、投稿をソフト削除し、投稿者をサイレンスします
    • Flag as spam and hide post — スパムとしてフラグを立て、投稿を非表示にします(自動的に非表示になります)
    • Flag as spam, hide post and silence user — スパムフラグ + 投稿を非表示 + 投稿者をサイレンスします
  • Hide Topicを有効にしてトピック全体を自動的に非表示にします

自動応答:

  • Reply UserReply(定型文)を設定して、投稿がフラグ付けされた理由を説明する固定メッセージを投稿します
  • Reply Agentを選択して、動的応答を生成するために別のAIエージェントを使用します(これは定型文よりも優先されます)
  • Reply as Whisperを有効にして、応答をスタッフのみに表示されるようにします

投稿者への通知:

  • Notify author via PMを有効にして、コンテンツにフラグが立てられたときに投稿者にプライベートメッセージを送信します
  • PM senderユーザー(デフォルトはシステム)を設定し、オプションでカスタムPM contentを提供します

その他のオプション:

  • Include personal messagesを有効にして、プライベートメッセージもスキャンおよびトリアージします

留意事項

  • LLMの呼び出しは高額になる可能性があることを念頭に置いてください。分類器を適用する際は、コストを監視し、常に小規模なサブセットでのみ実行することを検討してください。
  • GPT-4oのような、より高性能なモデルはより良い結果をもたらしますが、コストが高くなる可能性があります。ただし、LLMがより良くなり安価になるにつれて、コストが低下するのを確認しています。

その他の用途

プロンプトは、PII(個人識別情報)の漏洩やスパム検出など、あらゆる種類の検出を実行するようにカスタマイズできます。この自動化をコミュニティに役立てるためにどのように活用しているかお聞かせください!

「いいね!」 8

投稿が新しいトピックに分割されました: LLMとNSFWコンテンツ検出の遅延