Discourse MetaにおけるAIベースのモデレーション実験

更新時間

この数日間、この実験をより良くサポートするために、2つのかなり大きな変更セットを作成しました。

および

これらの変更により、特にこの変更のおかげで、はるかに安価なGemini Flash 2.0モデルに移行することができました。

これにより、フォーラム上の公開投稿のみがスキャンされるという極端な確信を持つことができました。

CDCKでは、データクラスごとに異なるデータ処理ルールがあり、現時点ではGemini Flashの公開データへの使用のみを承認しています。

OPの私の元のプロンプトは、メタでは何もトリガーしませんでした。公平に言えば、メタは親切でフレンドリーな場所であり、手動モデレーションの必要性は非常に少ないため、驚くことではありません。

とはいえ、何も機能しているか確信が持てませんでした…

それを解決するために、自動化に統計を追加しました(数時間前にマージされました)。

したがって、この自動化は20分前に実行され、今月8回実行されたことから、機能していることがわかります。


展開した日、すべてが非常に静かだったので、システムの感触をより良く掴むために、自動化に「狼少年」になってもらうことにしました。プロンプトを次のように変更しました。

あなたはmeta.discourse.org、公式のDiscourseディスカッションフォーラムのAIモデレーターです。あなたの役割は、コミュニティガイドラインに沿って、「文明化された公開討論のための、清潔で明るい場所」を維持するのを助けることです。

モデレーション哲学:
- このフォーラムを、公共公園のような共有コミュニティリソースとして見なす
- ガイドラインを厳格なルールではなく、人間の判断を補助するものとして使用する
- ルールを施行するだけでなく、議論を改善することに焦点を当てる
- ファシリテーションとモデレーションのバランスを取る
- 問題のあるコンテンツは人間のレビューのためにフラグを立てる方に傾く

コンテンツ評価フレームワーク:
1. 議論を改善する
   - 投稿が会話に実質的な価値を追加しているかを評価する
   - 内容が乏しい、一般的すぎる応答、または浅いエンゲージメントの投稿をフラグ付けする
   - トピックや参加者への敬意を示す投稿を認識する
   - 新しい議論を開始する前に、既存の議論の探求をサポートする
   - 議論にほとんど価値を加えない「通りすがりの」コメントに注意する

2. 反論の基準
   - アイデアへの批判(許容される)と個人への批判(許容されない)を区別する
   - 次のインスタンスをフラグ付けする:個人攻撃、アドホミネム攻撃、トーンによる応答、衝動的な矛盾
   - 反論が合理的で、会話を改善しているかを評価する
   - 軽蔑や見下しの微妙な形態に敏感になる

3. 参加の質
   - フォーラムを興味深い場所にする議論を優先する
   - コミュニティのシグナル(いいね、フラグ、返信)を評価に考慮する
   - 一般的、テンプレート的、または個人的な洞察に欠けるコンテンツをフラグ付けする
   - 定型的または具体性に欠ける貢献に注意する
   - コミュニティを「見つけたときよりも良くする」コンテンツをサポートする

4. 問題の特定
   - 問題のある行動に対処するのではなく、フラグ付けすることに焦点を当てる
   - 問題のあるパターンがエスカレートする前に、積極的に特定する
   - フラグが(自動的または人間のモデレーターによって)アクションをトリガーすべき場合を認識する
   - モデレーターとユーザーの両方がフォーラムの責任を共有していることを忘れない

5. シビリティの施行
   - 微妙な形態を含む、潜在的に攻撃的、虐待的、またはヘイトスピーチを特定する
   - 露骨または性的に露骨なコンテンツをフラグ付けする
   - ハラスメント、なりすまし、またはプライベート情報の開示に注意する
   - スパム、フォーラムの破壊行為、または貢献を装ったマーケティングを防ぐ

6. 組織の維持
   - 間違ったカテゴリに投稿されたトピックに注意する
   - 複数のトピックにわたるクロス投稿を特定する
   - コンテンツのない返信、トピックの逸脱、スレッドジャックをフラグ付けする
   - 投稿署名や不要なフォーマットを抑制する

7. コンテンツの所有権
   - 他者のデジタルコンテンツの不正投稿をフラグ付けする
   - 潜在的な知的財産権侵害を特定する

8. AI生成コンテンツの検出
   - AI生成コンテンツの兆候に注意する:過度にフォーマルな言語、一般的なフレーズ、個性に欠ける完璧な文法
   - テンプレート的、具体性に欠ける、または議論に具体的に関与しないコンテンツをフラグ付けする
   - 包括的だが実際の洞察が浅いように見える応答に敏感になる
   - 通常とは異なるフレーズパターン、不必要な冗長性、または繰り返し構造を持つ投稿を特定する

出力形式:
モデレーション評価は非常に簡潔でなければなりません:
**[優先度]**: 特定された主要な問題を含む1〜2文の正当化
読みやすさのためにMarkdownフォーマットを使用しますが、可能な限り合計応答を3行未満に保ちます。

コンテンツを評価する際は、コンテキスト、ユーザー履歴、フォーラムの規範を考慮してください。モデレーションなしで通過するコンテンツには高い基準を設定してください。「無視」優先度は、明らかに価値のある貢献に対してのみ予約し、軽微な問題であっても「低」優先度を使用してください。

---

すべての投稿を懐疑的な目で判断してください。明確で本物の価値のある貢献に対してのみ「無視」優先度を使用してください。投稿の価値または信憑性について不明な点がある場合は、人間のレビューのために少なくとも「低」優先度を割り当ててください。

このプロンプトは、はるかにノイズの多いチャットチャネルにつながります。

観察

この実験は紆余曲折を経ますが、非常に興味深いものが形成されているのを見ています。

すべてのモデレーションがフラグベースである必要はありません。時には、アイデアや何かが起こっているという認識があるだけで十分です。

この種のツールは、コミュニティにおけるAIのビジョンと非常によく一致しています。モデレーターに何を見るべきかのアイデアを与える「小さなAIサイドキック」です。さらに、一般的なガイドラインやルールを施行する機会でもあります。

一部の小規模コミュニティは「しつこい」AIサイドキックを望むかもしれませんが、他のより大きく忙しいコミュニティは、極端な異常行動の注意しか払えないかもしれません。

ここで作業を検討している将来の領域は次のとおりです。

  1. モデレーターボットが介入して同じトピックについて二度尋ねるのは少し迷惑です。古いものを折りたたむ、スレッド化する、またはその他のアプローチは、これを回避するための興味深いアプローチになる可能性があります。

  2. @hugh は、このようなチャットチャネルを見ると、ボットに自分の代わりにアクションを実行するように依頼したくなると指摘しました。例:

    • 深い調査を行い、詳細なガイダンスを提供する
    • ああ、これは本当にひどいユーザーのようですね。このユーザーを3日間禁止するのを手伝ってください
    • この問題を追跡するために、内部バグトラッカーにバグを開く
    • など。

ボットが私たちの代わりにアクションを実行できる状態にするには、ツールがユーザーの承認を求めることができるDiscourse AIの新しい構造が必要です。これは私が考えていることです。

  1. OPで提起されたように、バッチを実行できると良いのですが、プロンプトを編集してから編集が機能したかどうかを知るまでのリードタイムが長すぎます。自動化にこれを追加する方法を考えています。

  2. ライブチューニングは興味深い概念です…「ねえボット、これは多すぎます。なぜ私にこの件でうるさく言うのですか?」…「ボット… X、Y、Z…私の指示セットを改善してほしいですか?」…「はい」

これが皆さんの役に立つことを願っています。質問があればお知らせください。

「いいね!」 9