AI トリアージ自動化は一般ユーザー間のDMをスキャンしますか?

こんにちは、

マデイラ島の多言語ビジネスディレクトリである「madeira.community」で、コンテンツモデレーション用の「AI を使用したトリアージ投稿」自動化を設定しました。

この自動化は公開投稿では完璧に機能しています。しかし、「個人メッセージを含める」オプションを有効にしたところ、一般ユーザー間のダイレクトメッセージ(DM)が全くスキャンされていないことが分かりました。

私の懸念は深刻です。悪意のある行為者が、公開コンテンツでは正常に機能している AI モデレーションを完全に回避しながら、薬物取引、窃取された金融データの共有、児童誘拐などの違法行為を私的メッセージで行う可能性があります。

私の質問:

  1. 「個人メッセージを含める」オプションは、一般ユーザー(スタッフではない)同士の DM スキャンを実際にサポートしていますか?

  2. もしサポートしていない場合、これは設計上の意図によるものですか、それとも既知の制限事項ですか?

  3. 一般ユーザー間の私的メッセージに対して AI トリアージを適用できるサポートされた方法はありますか?

「デフォルトで LLM トリアージにおける PM スキャンをスキップする」というコミットへの言及を見つけましたが、これは意図的なものである可能性があります。しかし、UI にそのオプションが存在するため、実際に何をしているのか混乱しています。

ありがとうございます

はい、そのオプションを有効にすれば、PM のスキャンが行われます。

どのようにしてそのことを確認されましたか?

「テストユーザーからダリナユーザー(どちらも一般ユーザーでスタッフではありません)へ、明らかに違法な内容を含むプライベートメッセージを送信してテストを行いました。内容は『コカイン。武器。手榴弾』および『ポルノ。汚れ。放蕩。暴力』です。メッセージは配信され、フラグは付けられませんでした。レビューキューは空のままです。同じ内容を公開投稿にすると、即座にフラグが付けられました。」

それらが処理されなかったことを確認しました。それらの PM のトピック ID(210、211、212、214)と投稿 ID は、ai_api_audit_logs テーブルに含まれていません。

「トピックタイプ」の「すべてのトピック」は、プライベートメッセージ以外のすべてのトピックを意味するのだと思います。
その項目を空欄にしてみてください。

「うまくいきました!リチャードさん、ありがとうございます。トピックタイプを空のままにすることで解決しました。一般ユーザー間のダイレクトメッセージがスキャンされるようになりました。

現在、2 つの別の自動化を設定しようと考えています。

  1. 公開投稿用:厳格なモデレーションプロンプト
  2. 私人間メッセージ用:軽いプロンプト。最も深刻な違反(児童性的虐待材料、薬物取引、武器)のみをフラグ付け

このようにすることで、公開コンテンツは完全なモデレーションを受け、プライベートな会話にはより適切な境界線を設けることができます。」

トピックはクローズ可能です。ありがとう!

「すべてのトピック」という表現は、この文脈では少し曖昧に思えますね… 明確にするために更新したほうがよいかもしれません

  • すべてのトピック トピック(すべてのカテゴリ)
  • 公開トピック(すべてのセキュアカテゴリを除く) トピック(公開カテゴリのみ)
  • プライベートメッセージ のみ

「すべてのトピック」の項目を見て、すべてのコンテンツが審査されると考えました。
フィールドを空白のままにすると、すべてのコンテンツが審査されることになるなんて、全く思いもよりませんでした。

単一のドロップダウンメニューでは制限が多く、3 つの個別のオプションの方が優れており、ユーザーにとって明確だと考えます。

  • 公開トピック:あり/なし
  • 非公開トピック:あり/なし
  • プライベートメッセージ:あり/なし

考えられる状況は 8 通りありますが、ドロップダウンメニューでカバーされているのはそのうちの 4 通りだけです。

もしかして?

  • すべて(トピック+PM)

  • 公開トピックのみ

  • 非公開トピックのみ

  • 非公開+PM

  • PMのみ

それは「一般的なトピック(公開および非公開の両方)だが、PM は含まない」という、かなり論理的な選択肢をカバーしていません。

また、可能性は低いですが、「公開トピックと PM」という選択肢もあります。