Discourse Google Perspective API

:discourse2: 概要 Google Perspective API は Discourse 向けの公式 Google Perspective API プラグインです。
:hammer_and_wrench: リポジトリリンク https://github.com/discourse/discourse-perspective-api
:open_book: インストールガイド Discourse でのプラグインのインストール方法

機能

Perspective API とは?

公式サイト によると、「Perspective は、より良い対話を促進するための API です。この API は機械学習モデルを使用して、コメントが対話に与える可能性のある影響をスコアリングします。このモデルは、人々にインターネット上のコメントを『非常に有害』から『非常に健全』な貢献までのスケールで評価してもらうことでトレーニングされました。『有害』とは、議論から離脱させる可能性のある無礼で、不敬であり、かつ不合理なコメントとして定義されています。」

discourse-perspective-api プラグインは何ができますか?

  • 投稿する前に、潜在的に有害な投稿を提出するかどうかユーザーに確認を促します。
  • 有害な投稿を自動的にフラグ付けし、モデレーターや管理者がレビューできるようにします。
  • オプションで、プライベートカテゴリやプライベートメッセージ (PM) を有害なコンテンツに対してスキャンします。

設定

Perspective API キーはどこで取得できますか?

以下の手順に従って Google Cloud アカウントを作成し、API キーへのアクセス権を取得してください。

この API は無料で利用できます。API リファレンスドキュメントもご覧ください。

サイト設定のウォークスルー

(管理者 - > フィルターテキストフィールドに ‘perspective’ と入力)

この API は現在、英語でのみ利用可能です。
デフォルトのしきい値は比較的高く設定されていますが、これらの設定により、このプラグインの動作を微調整するためのカスタマイズ性が提供されます。上記の公式ドキュメントにあるライブデモで試して、しきい値がどのように動作するかを把握してください。

  • perspective_enabled:
    潜在的に有害な投稿をフィルタリングするためにプラグインを有効にします。

  • perspective_toxicity_model:
    Google の Perspective API に使用する有害性モデルを選択します。これらのモデルがどのように開発されているかについては、API リファレンスドキュメントをお読みください。

    • standard
      人々が議論から離脱させる可能性のある無礼で、不敬であり、かつ不合理なコメントを分類します。標準モデルでは、悪口や侮辱が友好的な文脈で使用されている場合でも、しきい値を超えやすく、投稿が簡単にフラグ付けされます。しきい値を 0.9 のように高く設定した場合、標準モデルはより少ない投稿をフラグ付けし、誤ったアクションをより少なく行います。

    • severe toxicity (experimental)
      このモデルは標準モデルと同じアルゴリズムを使用しますが、「非常に有害」と見なされた例を認識するようにトレーニングされています。これにより、例えば悪口の肯定的な使用を含むコメントに対しては、はるかに感度が低くなります。投稿は、極端な有害性の事例が検出された場合のみフラグ付けされ、このモデルのしきい値は 0.7 程度まで下げることができます。

    例えば、"I f*****g love you man" という投稿は、デフォルトのしきい値を使用する standard モデルではフラグ付けされますが、severe toxicity モデルではフラグ付けされません。

  • perspective_notify_posting_min_toxicity_enable:
    ユーザーが投稿しようとしている際に潜在的に有害なコンテンツをチェックし、ユーザーが有害な内容を書いたときにコンポーザー内で通知をプッシュします。

    • perspective_notify_posting_min_toxicity:
      API がこのしきい値より高いスコアを返した場合、ユーザーに潜在的に有害なコンテンツを投稿するかどうか確認する通知を送信します。これは、ユーザーが投稿を composing している間に有害性をチェックするために使用される、0 から 1 の間の投稿の有害性の信頼度レベルです。スコア 1 は極めて有害を意味します。0.9 以上の値は、使用されるモデルにもよりますが、極めて有害な投稿のみをフラグ付けします。ユーザーは投稿前に通知されるため、事前に警告するために、ここでは 0.85 のようにわずかに低いしきい値を使用できます。
  • perspective_flag_post_min_toxicity_enable:
    すでに提出された可能性のある有害な投稿をフラグ付けし、提出された投稿についてモデレーターに通知するメッセージを送信します。管理者/モデレーターはフラグ付きの投稿について通知されます。

    • perspective_flag_post_min_toxicity:
      API がこのしきい値より高いスコアを返した場合、投稿を管理者/モデレーターによるレビューのためにフラグ付けします。これは、ユーザーが投稿した後、有害性をチェックするために使用される、0 から 1 の間の投稿の有害性の信頼度レベルです。スコア 1 は極めて有害を意味します。0.9 以上の値は、使用されるモデルによって異なりますが、極めて有害な投稿のみをフラグ付けします。
  • perspective_google_api_key:
    上記の登録プロセスを完了した後、受け取った Perspective API の API キーです。

  • perspective_check_private_message:
    有害な場合、プライベートメッセージをチェックしてフラグ付けします。
    注意: PM の内容はモデレーター/管理者に送信されます。
    バックフィルモードにも適用されます。

  • perspective_check_secured_categories:
    この設定を有効にすることで、プライベートカテゴリの有害なコンテンツも追加でチェックします。

  • perspective_backfill_posts:
    既存の投稿の有害性を照会し、結果を投稿のカスタムフィールドに記録します。
    このモードを有効にすると、投稿のオンラインチェックは無効になります。

  • perspective_historical_inspection_period:
    最後の反復が完了した後、新しい照会反復を開始するまでの日数。perspective_backfill_posts が有効な場合のみ使用されます。

スクリーンショット

有害な投稿を提出しようとした際にユーザーが見る画面:

有害な投稿が提出された際に管理者/モデレーターが見る画面:

変更履歴

今後予定されていること


このプラグインを作成してくださった @fantasticfears さんに大感謝!

「いいね!」 49

APIが更新され、ロシア語などのより多くの言語をサポートするようになったようです。プラグインでのサポート拡張はいつになりますか?

「いいね!」 2

同じ質問です。APIで現在サポートされているポルトガル語でも動作しますか?

編集:テストしたところ、ポルトガル語で完璧に動作しました。

気に入りました。

「いいね!」 5

このAPIについて何か新しいことはありますか?誰かまだ使っている人がいるか、何か言うべきことはないか、心から知りたいです。

お客様は、Discourse AI プラグインの「Triage by Persona」(ペルソナによるトリアージ)機能を利用しています。これは、この機能が行うすべてのことを実行できますが、各コミュニティの特殊性に合わせて柔軟に対応できます。

「いいね!」 4

Gemini Flash 2.0では、私のコミュニティにはもう十分ではありません。基本的に、このAPI以外に毒性(トキシシティ)ツールがないのですが、まあ、それは後で考えることにします。

Gemini Flash 2.0 は現在数世代遅れています。Gemini Flash の現在のバージョンを使用してみてください。

「いいね!」 2

重要なお知らせ: Perspective API はサービス提供を終了し、2026年以降に正式にサービスを停止します。

スパムフィルタリングと同様に、一般的なLLMソリューションに切り替えることができると思いますか?購読できるロードマップはありますか?

「いいね!」 1

はい、上記で述べたようにAI+自動化を使用してください。

「いいね!」 4