こんにちは、
マデイラ島の多言語ビジネスディレクトリである「madeira.community」で、コンテンツモデレーション用の「AI を使用したトリアージ投稿」自動化を設定しました。
この自動化は公開投稿では完璧に機能しています。しかし、「個人メッセージを含める」オプションを有効にしたところ、一般ユーザー間のダイレクトメッセージ(DM)が全くスキャンされていないことが分かりました。
私の懸念は深刻です。悪意のある行為者が、公開コンテンツでは正常に機能している AI モデレーションを完全に回避しながら、薬物取引、窃取された金融データの共有、児童誘拐などの違法行為を私的メッセージで行う可能性があります。
私の質問:
-
「個人メッセージを含める」オプションは、一般ユーザー(スタッフではない)同士の DM スキャンを実際にサポートしていますか?
-
もしサポートしていない場合、これは設計上の意図によるものですか、それとも既知の制限事項ですか?
-
一般ユーザー間の私的メッセージに対して AI トリアージを適用できるサポートされた方法はありますか?
「デフォルトで LLM トリアージにおける PM スキャンをスキップする」というコミットへの言及を見つけましたが、これは意図的なものである可能性があります。しかし、UI にそのオプションが存在するため、実際に何をしているのか混乱しています。
ありがとうございます
RGJ
(Richard - Communiteq)
2
はい、そのオプションを有効にすれば、PM のスキャンが行われます。
どのようにしてそのことを確認されましたか?
「テストユーザーからダリナユーザー(どちらも一般ユーザーでスタッフではありません)へ、明らかに違法な内容を含むプライベートメッセージを送信してテストを行いました。内容は『コカイン。武器。手榴弾』および『ポルノ。汚れ。放蕩。暴力』です。メッセージは配信され、フラグは付けられませんでした。レビューキューは空のままです。同じ内容を公開投稿にすると、即座にフラグが付けられました。」
RGJ
(Richard - Communiteq)
4
それらが処理されなかったことを確認しました。それらの PM のトピック ID(210、211、212、214)と投稿 ID は、ai_api_audit_logs テーブルに含まれていません。
「トピックタイプ」の「すべてのトピック」は、プライベートメッセージ以外のすべてのトピックを意味するのだと思います。
その項目を空欄にしてみてください。
「うまくいきました!リチャードさん、ありがとうございます。トピックタイプを空のままにすることで解決しました。一般ユーザー間のダイレクトメッセージがスキャンされるようになりました。
現在、2 つの別の自動化を設定しようと考えています。
- 公開投稿用:厳格なモデレーションプロンプト
- 私人間メッセージ用:軽いプロンプト。最も深刻な違反(児童性的虐待材料、薬物取引、武器)のみをフラグ付け
このようにすることで、公開コンテンツは完全なモデレーションを受け、プライベートな会話にはより適切な境界線を設けることができます。」
トピックはクローズ可能です。ありがとう!
「すべてのトピック」という表現は、この文脈では少し曖昧に思えますね… 明確にするために更新したほうがよいかもしれません
すべてのトピック トピック(すべてのカテゴリ)
公開トピック(すべてのセキュアカテゴリを除く) トピック(公開カテゴリのみ)
- プライベートメッセージ のみ
「すべてのトピック」の項目を見て、すべてのコンテンツが審査されると考えました。
フィールドを空白のままにすると、すべてのコンテンツが審査されることになるなんて、全く思いもよりませんでした。
RGJ
(Richard - Communiteq)
8
単一のドロップダウンメニューでは制限が多く、3 つの個別のオプションの方が優れており、ユーザーにとって明確だと考えます。
- 公開トピック:あり/なし
- 非公開トピック:あり/なし
- プライベートメッセージ:あり/なし
考えられる状況は 8 通りありますが、ドロップダウンメニューでカバーされているのはそのうちの 4 通りだけです。
RGJ
(Richard - Communiteq)
10
それは「一般的なトピック(公開および非公開の両方)だが、PM は含まない」という、かなり論理的な選択肢をカバーしていません。
また、可能性は低いですが、「公開トピックと PM」という選択肢もあります。