Discourse AI - スパム検出

そして、ここで捕まった同じスパマーの例を挙げます: https://meta.discourse.org/t/full-list-of-quickbooks-desktop-support-contact-numbers-a-complete-call-center-in-the-usa/380776 (すでに非表示になっています)。

彼らは間違いなく熱心に活動しています。

「いいね!」 1

この機能に関する素晴らしい成果です。:raising_hands: まさに私がAIの活用に期待していた方法です。

簡単な質問です。新しいTL0ユーザーが返信またはトピックを送信した際、コンテンツがスキャンされるまで遅延はありますか?

組み込みテスターでは短い遅延が見られます(下のスクリーンショット)が、テストアカウントから投稿すると、同様の一時停止はありません。投稿は公開後に非同期でスキャンされ、ルールに抵触した場合にのみ非表示になるのでしょうか?(コンテキスト:OpenAI ChatGPT 5 APIを使用しています。)

参考までに、AI \u003e Spam \u0026 Stats はテストアカウントで期待どおりに増加するため、投稿はスキャンされています。ただし、Testボタンのような遅延は発生していません。

image

ありがとうございます。

これはかなりうまく機能しますが、数十のトピック/ユーザーがフラグ付けされた場合はどうなりますか?これらのユーザー/投稿を一括禁止/削除する方法が見つかりません。

詳細なスレッドをありがとうございます。当方のインスタンスではDiscourse AIスパム検出が有効になっており、アカウントによる最初の投稿がフラグ付けされた場合の自動サイレンス設定が問題となっています。

これは一回限りのスパマーを沈黙させるためのものだと理解していますが、フラグを承認したいがユーザーのサイレンスは解除したい場合に、フラグの承認がユーザーのサイレンスを維持してしまうという問題が発生しています。以下のようなボタンがあると良いでしょう。

  1. 「同意してサイレンスを維持する」ボタン
  2. 「同意してサイレンスを解除する」ボタン
「いいね!」 2

これは難しい問題ですね。選択肢で人々を麻痺させたくはありませんが、規模が大きくなるとこれが問題になることはよく理解できます。

エンタープライズXPチームに確認して、フォーラム向けに小さなカスタマイズができるかどうか見てみます。

「いいね!」 1

ローカル開発環境でテストスパムスレッドを投稿しましたが、自動的にレビューキューに入りませんでした。

AI検出結果は確かにスパム投稿です。

また、レビューキューに入るための他の条件も満たしています。

  1. ユーザー信頼度:

    • 信頼度スコアが 1 以下 のユーザーの投稿をスキャンします。

    • 信頼度スコアが高いユーザーの投稿は除外します。

  2. 投稿タイプ:

    • 公開投稿(プライベートメッセージは除く)。

    • 他のしきい値に基づいて、返信投稿や最初のトピック投稿を含みます。

  3. 投稿の編集:

    • 大幅な編集(例:10 文字を超える変更)があった投稿をスキャンします。

    • 同じ投稿のスキャン間には 10 分の遅延 を強制します。

  4. 投稿頻度:

    • 新規ユーザーが公開トピックで合計 4 件未満 の投稿をしている場合に優先処理します。

    • このしきい値を超えたユーザーの投稿は除外します。

しかし、最終的な結果としてレビューキューに入りませんでした。

どこを確認すれば問題を見つけられるでしょうか?

こんにちは @singi2016cn さん。

これはテストツールで確認したということでしょうか?

[quote=“sam, post:1, topic:343541”]## スパムスキャナーの動作テスト
設定ページからスパム検出ルールを直接テストできます。

  • テストフィールドに投稿URLまたはIDを貼り付けます。
  • 分類結果(例:「SPAM」または「NOT SPAM」)を確認し、ログを分析して理由を理解します。
  • 保存されていない変更はテスト中に適用されるため、リスクなしで実験できます。[/quote]

そのツールには、次の手順でアクセスできます。

  1. フォーラムに管理者権限を持つアカウントでログインします。
  2. フォーラムの次のページに移動します: /admin/plugins/discourse-ai/ai-spam
  3. そのページにある「テスト…」ボタンをクリックします。
    スパム検出をテスト」ダイアログが開きます。
  4. ダイアログの「投稿URLまたはID」フィールドに、テストするスパム投稿のURLまたは投稿IDを入力します。
  5. テストを実行」ボタンをクリックします。
「いいね!」 2

はい、テストツールでは明確にスパムと返されましたが、全く同じ内容で投稿しても審査キューに入りませんでした。

誰がこれを投稿しましたか?テスト用に作成した新しいユーザーを使用しましたか、それとも例えばモデレーター権限を持つアカウントを使用しましたか?

一般ユーザー、trust_level_1の信頼レベル、管理者でもモデレーターでもありません。

以下は、私が使用しているスパム検出のためのカスタムインストラクションセットです。これは標準バージョンよりも詳細であるため、より多くのトークンを使用します。スパム検出のために、他のユーザーはどのようなカスタムインストラクションセットを使用していますか?

簡潔なスパム検出インストラクションセット

あなたはフォーラムの投稿をレビューするスパム検出システムです。

あなたのタスクは、投稿がコミュニティに真に貢献するのではなく、主に宣伝、詐欺、検索順位の操作、悪意のあるリンクの配布、または議論の妨害を目的としているかどうかを判断することです。

以下を評価します。

  • 投稿内容
  • 投稿タイプ(返信か新規トピックか)
  • スレッドのコンテキスト(返信の場合)
  • サイト情報

スパムとして分類する条件:投稿が以下の場合

  • 意味のある関与なしに製品、サービス、または外部リンクを宣伝している
  • 不審な、無関係な、または複数の宣伝リンクを含んでいる
  • SEOスタイルのキーワードスタッフィングや反復的なパターンを使用している
  • 自動化されている、テンプレート化されている、またはボットによって生成されたように見える
  • フォーラムのトピックと無関係である
  • 返信の場合:スレッドを無視して無関係なコンテンツを挿入している

強いスパムの兆候には以下が含まれます。

  • アフィリエイト/紹介リンク
  • 「今すぐ購入」や割引、セールに関する文言
  • 議論と無関係な連絡先情報
  • 一般的な賞賛+リンク
  • コピペ構造
  • 無意味またはAIによって生成されたテキスト

スパムとして分類しない条件(単に以下という理由だけでは不可):

  • ユーザーが新規である
  • 英語が不完全である
  • 投稿が短い
  • トーンが熱狂的である
  • 文脈の中で関連する製品やサプライヤーが言及されている

正当なシグナルには以下が含まれます。

  • スレッドへの具体的な言及
  • トピックに関連する技術的な議論
  • 真の質問
  • フォーラムの主題に関連する個人的な経験

決定ルール

主な意図が宣伝的、悪意がある、または破壊的であると思われる場合 → spam = true。
議論に意味のある参加をしている場合 → spam = false。

不確実だが複数の警告サインがある場合は、コミュニティの安全を優先します。


出力形式

有効なJSONのみを返します。

{“spam”: trueまたはfalse, “reason”: “簡潔な説明(1〜2文)。”}

追加のコメントは含めないでください。

「いいね!」 1

管理者 → プラグイン → AI → SPAM ページに、サマリーボックスの詳細を示すレポートがあるはずです。サマリーボックスには、スキャンされた投稿数、検出されたスパム数、偽陽性および偽陰性数が表示されます。

  • 私が見つけられなかっただけで、詳細レポートはどこかに存在しますか?
  • より低レベルの詳細を提供するデータエクスプローラークエリはありますか?

よろしくお願いします。

これはすべての詳細を提供します

SELECT * FROM ai_spam_logs ORDER BY 1 DESC LIMIT 50
「いいね!」 2