Discourse AIスパム検出のフラグが拒否された際、投稿とアカウントが必ずしも復元されない

,

優先度/重大度:

プラットフォーム

オペレーティングシステム

Windows 11

ブラウザ

Google Chrome 131.0.6778.265

Discourse

c1a46995a7b87982557eeba297d4460169c77bba

Discourse AI

61758ff8a6ea98e4502d0bdc9a8abe635aa35666

説明:

Discourse AI プラグインのスパム検出機能によってスパムとして検出された投稿に対して、以下の処理が行われます。

  • 投稿は非表示になる
  • 投稿者のアカウントはミュートされる
  • フラグが立てられる

その後、フォーラムスタッフがフラグを確認します。スパム検出が誤検出だった場合、スタッフはフラグレビューインターフェースの「いいえ、投稿を復元」ボタンをクリックします。

:bug: フラグレビュー担当者が「いいえ、投稿を復元」ボタンをクリックしても、投稿とアカウントが常に復元されるわけではありません。投稿は非表示のままで、投稿者のアカウントは不当にミュートされたままになります。

再現手順:

フォルトを確実に再現する方法はわかりませんが、フォルトが発生した場合に実行される手順は以下のとおりです。

  1. Discourse AI スパム検出システムによって投稿がフラグ付けされるのを待ちます。
  2. フラグレビューインターフェースの「いいえ、投稿を復元」ボタンをクリックします。
  3. フラグ付けされた投稿を確認します。
    :bug: 投稿がまだ非表示になっている可能性があります。
  4. フラグ付けされた投稿を作成したユーザーの管理者ページを確認します。
    :bug: ユーザーのアカウントがまだミュートされている可能性があります。

追加コンテキスト

以下の条件下で発生するようです。

  • フラグ付けされた投稿がトピックの最初の投稿ではない。
  • フラグ付けされた投稿の作成者がトピックを作成した。

バグによりフラグ却下後にアカウントがミュートされたままのユーザーの ユーザーノート を確認すると、次のような形式の同一ノートが 2 つあります。

system 19m

@discourse_ai_spam このアカウントは 3025 年 1 月 13 日までミュートされました。理由: ユーザーは Discourse AI によって自動的にミュートされました

2 つのノートのタイムスタンプの間には数分あります。両方のノートは、1 つのフラグのみが立てられた同じ投稿に関連付けられています。

投稿がフラグ付けされたが、フラグ却下後にアカウントが正しく復元されたユーザーのユーザーノートを確認すると、これらのノートのうち 1 つしか表示されません。


調査に役立つ可能性があるため、これが次のフォーラムで発生していることを言及します。

「いいね!」 4

ここに修正を加えました。

以前の仕組みほど魔法的ではなく、スパマーに対して厳しいものではありませんが、追加の安全性と明確さがそれに見合う価値があると考えています。

ちなみに、Arduinoで誤検知のパターンがあることに気づいたので、カスタム指示を少し調整して修正します(デプロイ待ち)。

「いいね!」 3

バグ修正、およびAIスパム検出指示の改善、誠にありがとうございます!

いつものように、Discourseチームからの驚くほど迅速な対応でした!

敬具 Per

「いいね!」 4

このトピックは4日後に自動的に閉じられました。返信はもう許可されていません。

残念ながら、フォーラムが修正候補を含むバージョンに更新された後も、問題が引き続き発生していることがわかりました。

過去1週間で、フラグが付けられた投稿が非表示のままで、ユーザーのアカウントがサイレント状態のままだったケースが3件ありました。「いいえ、投稿を復元します」ボタンをクリックしたにもかかわらず、以下の通りです。

これは以下のバージョンで発生しました。

  • Discourse AI プラグインバージョン 4784e7fe43ff25c44df986a56f70c0c1c017a51a
  • Discourse バージョン d3a7b996992e721dd9caab60095414eaf1fc832f
「いいね!」 2

Pertさん、ありがとうございます。今週中に確認して、原因を調べます。

調査したところ、興味深い話がたくさんありました。

たとえば、次のケースについてです。

ユーザーはAIによって複数回ミュートされているようです。

以下のような一連の流れが見られました。

  • システムがフラグを立てる
  • フラグが却下される
  • ユーザーが編集する
  • スパムシステムが再び検出する
  • 「重複」となるためフラグは作成されず、システムは何も行わなかった。

この問題を適切に解決するために、スタッフエクスペリエンスチームと話し合ってみます。

スパマーは非常に巧妙である可能性があるため、AIがフラグを再設定できるようにする必要があります。最初は問題なかったとしても、永続的に問題がないとは限りません。

パートさん、

これは非常に複雑なエッジケースのように思われますので、デバッグして堅牢な解決策を見つけるのに少し時間をください。

二重フラグは非常に複雑な問題です。

サム、ありがとう。

まったくです。投稿に追加のフラグを受け取ることはまったく気にしません。

はい、編集後にスパムシステムが投稿を再評価してくれるのは素晴らしいことです!


問題がさらに発生しました。

問題の追加例が必要な場合は、お知らせください。発見次第、ここに提供し続けます(定期的にData Explorerクエリを実行して、バグによる非表示の投稿やミュートされたユーザーを確認しています)。それ以外の場合は、必要ない場合にここで「ノイズ」を生成したくないので、控えます。

「いいね!」 1

これで問題ないと思います。素晴らしい再現手順ができました。@martin がこれをリストに追加し、来週確認します。

「単純な」応急処置のような修正は考えられますが、もっとクリーンな方法がないか検討したいです。(例: フラグが処理された場合、投稿からフラグを手動で解除し、別のフラグを立てられるようにする)

ご報告いただき、誠にありがとうございました。

こんにちは、パートさん。

マーティンです。この件を担当することになりました。AIが既に処理済みのスパム投稿を再フラグ付けしようとして失敗し、それでもユーザーをミュートして投稿を非表示にするという問題を修正しました。修正をあなたのサイトにデプロイしました。

AIがスパムを再フラグ付けする必要性は依然としてありますが、少なくともユーザーがミュートされ、投稿が非表示になるという混乱した動作はもう見られなくなるはずです。

他に問題がありましたらお知らせください。

「いいね!」 3

マーティンさん、ありがとうございます!

「いいね!」 1

このトピックは11日後に自動的に閉じられました。返信はもうできません。