モデレーション API プラグイン

:information_source: 概要 Discourse Moderation API Plugin は、自動モデレーション機能でDiscourseフォーラムを強化します。Moderation APIの実績ある検出エンジンを活用し、改良されたモデレーションダッシュボードによりモデレーターの効率を10倍にします。
:hammer_and_wrench: リポジトリリンク https://github.com/moderation-api/discourse-moderation-api
:open_book: インストールガイド Discourseにプラグインをインストールする方法

:hammer_and_wrench: 主な機能

Moderation APIは、フルスタックのモデレーションソリューションです。

自動モデレーションアクション

  • コメントやトピックを自動的にフラグ付けします。
  • 一般的なユースケースに対応する20以上の組み込み済みモデルから選択するか、独自のモデルを構築します。
  • 有害性、NSFWコンテンツ、個人情報(PII)、スパム、自己宣伝、違法行為などを検出します。
  • 自動フラグ付けのカスタムしきい値を設定します。

LLM搭載検出

  • コミュニティガイドラインをAIエージェントに統合します。
  • AIを第一線での防御策として、またはコメントをフラグ付けする信頼できるモデレーターとして活用します。

カスタムモデルトレーニング

  • 最も高いモデレーション精度を実現するために、独自のAIモデルを開発します。
  • モデレーターのアクションをフィードバックとして使用し、モデルをトレーニングおよび改良します。
  • 機械学習を通じて、自動フラグ付けを継続的に強化します。

強化されたレビューキュー

  • 合理化されモダンなモデレーション体験のために、オプションでModeration APIのレビューキューを使用します。
  • 言語、カテゴリ、または特定の目的に合わせて調整された複数のレビューキューを作成します。
  • コンテンツのエスカレーションのためのモデレーションワークフローを開発します。
  • 効率的な管理のために、特定のレビューキューにモデレーターを割り当てます。

ダッシュボード分析

  • Moderation APIダッシュボードを通じてAIのアクティビティと結果を監視します。
  • 一般的な問題に関する洞察を得て、改善が必要な領域を特定します。

シームレスな統合

  • 既存のDiscourseワークフローとユーザーロールに簡単に統合できます。
  • DiscourseのレビューキューまたはModeration APIのレビューキューを選択できます。
  • Discourseの組み込みモデレーションアクションを利用します。

:rocket: 設定

Moderation API Pluginを設定するには、以下の手順に従ってください。

Moderation APIでプロジェクトを作成する

  • Moderation APIダッシュボードに移動します。
  • 新しいプロジェクトを作成し、検出したいラベルを選択します。

(オプション) しきい値をテストおよび調整する

  • しきい値スライダーを使用して、モデレーションの厳格さを決定します。
  • プレイグラウンドでAPIレスポンスをテストします。

APIキーを設定する

  • プロジェクトダッシュボードの「統合」の下にあるAPIキーを見つけます。
  • Discourseの管理パネルで、「設定」>「Moderation API」に移動します。
  • Moderation API KeyフィールドにAPIキーを貼り付けます。
  • 変更を保存します。

プラグインを有効にする

  • フラグ付けの動作を選択します(以下のオプションを参照)。アクションを実行せずにプラグインをテストするために、「なし」から始めることができます。
  • プラグインを有効にして、新しい投稿の分析を開始します。プラグインは既存のコンテンツを分析しません。

(オプション) コミュニティガイドラインを追加する

  • Moderation APIの「モデルスタジオ」に移動します。
  • 新しいAIエージェントを作成します。
  • ガイドラインをエージェントのルールとして組み込みます。広範なガイドラインがある場合は、複数のエージェントの作成を検討してください。
  • エージェントをプロジェクトに追加します。


:triangular_flag: フラグ付けの動作

プラグインには4つの異なるフラグ付け動作があり、Moderation APIがコメントをフラグ付けしたときに実行されるアクションを決定します。

1. フラグ付け(デフォルトの動作)

プラグインボットは、Discourseの設定に従って、コメントに「不適切」フラグを追加します。通常、これはコメントがレビューキューに表示されることを意味しますが、モデレーターが承認するか、追加のユーザーがコメントにフラグを立てるまで、すぐに非表示にならない場合があります。カスタマイズについては、Discourseのフラグ関連設定を確認してください。

2. レビューのためにキューに入れる

コメントは即座に非表示になり、モデレーターが承認または却下するためにレビューキューに追加されます。

3. 投稿をブロックする

コメントは投稿されません。投稿者は、コメントが自動モデレーションシステムによってブロックされたことを示すエラーメッセージを受け取ります。(エラーメッセージはカスタマイズできます。)

4. なし

即座のアクションは実行されません。コメントは分析され、フラグが付けられた場合はModeration APIダッシュボードに表示されます。このオプションは、プラグインを完全に有効にする前にModeration APIをテストする場合に便利です。


:white_check_mark: TODO

  • Moderation APIのレビューキューからDiscourseのコンテンツを削除するアクションを有効にする。
  • DiscourseのレビューキューからModeration APIのレビューキューへのアクションを同期する。
  • カテゴリごとに個別のモデレーションプロジェクトを許可する。
  • 選択したDiscourseフラグ付けカテゴリを使用してコンテンツにフラグを立てる(現在は「不適切」を使用)。

:wrench: 設定

以下は、Moderation API Pluginで利用可能な設定とその説明の表です。

設定 説明
Moderation APIを有効にする プラグインがアクティブかどうかを制御します。
デフォルト: 無効
フラグ付けの動作 コンテンツがフラグ付けされたときに実行されるアクション:
• レビューのためにキューに入れる
• 投稿にフラグを立てる
• 投稿をブロックする
• なし
デフォルト: 投稿にフラグを立てる
ブロックメッセージ 投稿がブロックされたときにユーザーに表示されるメッセージ。
デフォルト: 「お客様の投稿は当社のモデレーションシステムによってブロックされました。」
投稿キューでの通知 投稿がレビューのためにキューに入れられたときに通知を送信します。
デフォルト: 有効
プライベートメッセージを確認する モデレーションをプライベートメッセージに適用します。
デフォルト: 無効
スキップグループ モデレーションチェックをバイパスするユーザーグループ。
デフォルト: なし
スキップカテゴリ モデレーションチェックをバイパスするフォーラムカテゴリ。
デフォルト: なし
APIキー Moderation API認証キー。
デフォルト: なし

:credit_card: サブスクリプション

プラグインをすぐにインストールして、無料ティアまたは30日間のトライアルをご利用いただけます。より高度な機能と高い使用制限については、サブスクリプションオプションをご覧ください。


:books: ドキュメント


:hammer_and_wrench: サポート



免責事項: Discourse Moderation API Pluginはモデレーション機能を大幅に強化しますが、自動モデレーションの影響をレビューして理解することが不可欠です。モデレーションプロセスにおけるAIの使用に関して、常にコミュニティに透明性を確保してください。

プライバシーに関する注意: このプラグインは、モデレーションルールを施行するためにユーザー生成コンテンツを処理します。プライバシーポリシーを遵守し、データ処理慣行についてユーザーに通知してください。


「いいね!」 10

GitHub リポジトリの README より:

プラグインをすぐにインストールして、無料ティアまたは 30 日間のトライアルをご利用いただけます。

ウェブサイトまたは API ドキュメントで無料ティアに関する情報が見つかりませんでした。制限事項は何ですか?

また、従量課金制プランは、有料プランのクォータを超えた場合にのみ利用可能になりますか?

「いいね!」 2

無料プランはホビープロジェクトで利用可能です。設定をご希望の場合は、お気軽にご連絡ください。

はい、従量課金は、有料プランに含まれるクォータを超えた場合にオプトインで利用可能です。

「いいね!」 3

AIモデレーションツールの拡充は素晴らしいですね! Discourse AIのトリアージ機能と比較して、この機能が提供するものを明確にしていただけますか? よろしくお願いいたします!

「いいね!」 1

はい、もちろんです。元の投稿ではもっと明確にできたかもしれません。

まず、モデレーションAPIは、検出エンジンはその一部に過ぎない、完全なモデレーションプラットフォームへのアクセスを提供することに言及させてください。実質的には、コンテンツモデレーション解決における長年の経験を持つ企業と提携することになります。

しかし、検出/トリアージに焦点を当てるならば:

  1. 精度の向上: 20以上の事前構築済み分類器から選択でき、最も一般的なユースケースに対応できます。これにより、開始が非常に容易になり、モデルは常に改善されているため、最新かつ最高のものを気にする必要はありません。
    適切にトレーニングされた分類器は、プロンプトエンジニアリングされたLLMと比較して、より優れた堅牢な結果が得られることがよくあります。

  2. コンテキスト認識: モデレーションAPIの検出エンジンは、スレッドの以前のメッセージや作成者の履歴も参照して、より良い分析を提供できます。これは、組み込みのトリアージと比較して大きな改善点だと思います。

  3. 特化型LLM: Discourseでは、gpt-4oやclaudeなどのいくつかのモデルから選択できると思いますが、モデレーションAPIは、Llama-guardなど、コンテンツモデレーション専用にトレーニングされたLLMもサポートしており、今後も増えていきます。当社のLLMには、データに基づいて最高のパフォーマンスを発揮するためのプロンプトが事前設定されています。

  4. カスタムモデルのトレーニング: モデレーションAPIに接続すると、独自のデータで独自のモデルをトレーニングすることもできます。

  5. コンプライアンス: 当社は自社サーバーでモデルをホストしており、コンプライアンスと規制が優先事項である企業向けにカスタムDPAを提供できます。場合によっては、オンプレミスソリューションを提供することも可能です。

  6. コスト: 最も良い点は、大量の場合にはより安価に提供でき、いずれにしても予測可能なコストのための固定料金を提供できることです。

これでより明確になったことを願っています。プロジェクトの設定は、プロンプトを作成するだけのものよりもはるかに多くのオプションと柔軟性を提供するため、はるかに強力で専門的なソリューションと言えるでしょう。

「いいね!」 2

プラグインをインストールし、アプリを再構築すると、再構築時に次のエラーが発生します。

Gem::LoadError: can’t activate faraday-2.12.2, already activated faraday-2.13.4
… /plugins/discourse-moderation-api/plugin.rb:11:in `activate!’

完全なログ: er-js/faker-10.0.0 * [new branch] dependabot/npm_and_yarn/fortawesome - Pastebin.com

ダニエルさん、プラグインをお試しいただきありがとうございます。

現在確認中です。それまでの間、support@moderationapi.com までサポートにご連絡いただけると、よりお手伝いしやすくなります。

これでプラグインの最新バージョンで修正されたはずです。アプリを再構築できるはずです。