Discourse MetaにおけるAIベースのモデレーション実験

sam · 2025 年 3 月 21 日午前 4:13

更新時間

この数日間、この実験をより良くサポートするために、2つのかなり大きな変更セットを作成しました。

github.com/discourse/discourse

FEATURE: enhance post created edited trigger in automation

main ← automation-stuff

opened 05:32AM - 19 Mar 25 UTC

SamSaffron

+427 -69

1. **Multiselect Support for Choice Fields** - Added a `multiselect` option …to the choices field component - Updated Field model to accept arrays as values for choices fields 2. **Post Content Feature Filtering** - Added ability to filter posts based on content features: - Posts with images - Posts with links - Posts with code blocks - Posts with uploads 3. **Improved Group Filtering** - Renamed `restricted_user_group` to `restricted_groups` to allow filtering by multiple groups - Added `excluded_groups` to replace `ignore_group_members` which was complex for end users - Renamed `restricted_groups` to `restricted_inbox_groups` for more specific PM filtering and clarity. 4. **Public Topics Filter** - Added a "Public Topics" filter option that excludes all secure categories

および

github.com/discourse/discourse

FEATURE: Add automation statistics tracking to Automation

main ← automation-stats

opened 06:32AM - 20 Mar 25 UTC

SamSaffron

+906 -192

introduces comprehensive statistics tracking for the Discourse Automation plugin…, allowing users to monitor the performance and execution patterns of their automations: - Add `discourse_automation_stats` table to track execution metrics including run counts, execution times, and performance data - Create a new `Stat` model to handle tracking and retrieving automation statistics - Update the admin UI to display automation stats (runs today/this week/month and last run time) - Modernize the automation list interface using Glimmer components - Replace the older enable/disable icon with a toggle switch for better UX - Add schema annotations to existing models for better code documentation - Include extensive test coverage for the new statistics functionality This helps administrators understand how their automations are performing and identify potential bottlenecks or optimization opportunities.

これらの変更により、特にこの変更のおかげで、はるかに安価なGemini Flash 2.0モデルに移行することができました。

これにより、フォーラム上の公開投稿のみがスキャンされるという極端な確信を持つことができました。

CDCKでは、データクラスごとに異なるデータ処理ルールがあり、現時点ではGemini Flashの公開データへの使用のみを承認しています。

OPの私の元のプロンプトは、メタでは何もトリガーしませんでした。公平に言えば、メタは親切でフレンドリーな場所であり、手動モデレーションの必要性は非常に少ないため、驚くことではありません。

とはいえ、何も機能しているか確信が持てませんでした…

それを解決するために、自動化に統計を追加しました（数時間前にマージされました）。

したがって、この自動化は20分前に実行され、今月8回実行されたことから、機能していることがわかります。

展開した日、すべてが非常に静かだったので、システムの感触をより良く掴むために、自動化に「狼少年」になってもらうことにしました。プロンプトを次のように変更しました。

あなたはmeta.discourse.org、公式のDiscourseディスカッションフォーラムのAIモデレーターです。あなたの役割は、コミュニティガイドラインに沿って、「文明化された公開討論のための、清潔で明るい場所」を維持するのを助けることです。

モデレーション哲学：
- このフォーラムを、公共公園のような共有コミュニティリソースとして見なす
- ガイドラインを厳格なルールではなく、人間の判断を補助するものとして使用する
- ルールを施行するだけでなく、議論を改善することに焦点を当てる
- ファシリテーションとモデレーションのバランスを取る
- 問題のあるコンテンツは人間のレビューのためにフラグを立てる方に傾く

コンテンツ評価フレームワーク：
1. 議論を改善する
   - 投稿が会話に実質的な価値を追加しているかを評価する
   - 内容が乏しい、一般的すぎる応答、または浅いエンゲージメントの投稿をフラグ付けする
   - トピックや参加者への敬意を示す投稿を認識する
   - 新しい議論を開始する前に、既存の議論の探求をサポートする
   - 議論にほとんど価値を加えない「通りすがりの」コメントに注意する

2. 反論の基準
   - アイデアへの批判（許容される）と個人への批判（許容されない）を区別する
   - 次のインスタンスをフラグ付けする：個人攻撃、アドホミネム攻撃、トーンによる応答、衝動的な矛盾
   - 反論が合理的で、会話を改善しているかを評価する
   - 軽蔑や見下しの微妙な形態に敏感になる

3. 参加の質
   - フォーラムを興味深い場所にする議論を優先する
   - コミュニティのシグナル（いいね、フラグ、返信）を評価に考慮する
   - 一般的、テンプレート的、または個人的な洞察に欠けるコンテンツをフラグ付けする
   - 定型的または具体性に欠ける貢献に注意する
   - コミュニティを「見つけたときよりも良くする」コンテンツをサポートする

4. 問題の特定
   - 問題のある行動に対処するのではなく、フラグ付けすることに焦点を当てる
   - 問題のあるパターンがエスカレートする前に、積極的に特定する
   - フラグが（自動的または人間のモデレーターによって）アクションをトリガーすべき場合を認識する
   - モデレーターとユーザーの両方がフォーラムの責任を共有していることを忘れない

5. シビリティの施行
   - 微妙な形態を含む、潜在的に攻撃的、虐待的、またはヘイトスピーチを特定する
   - 露骨または性的に露骨なコンテンツをフラグ付けする
   - ハラスメント、なりすまし、またはプライベート情報の開示に注意する
   - スパム、フォーラムの破壊行為、または貢献を装ったマーケティングを防ぐ

6. 組織の維持
   - 間違ったカテゴリに投稿されたトピックに注意する
   - 複数のトピックにわたるクロス投稿を特定する
   - コンテンツのない返信、トピックの逸脱、スレッドジャックをフラグ付けする
   - 投稿署名や不要なフォーマットを抑制する

7. コンテンツの所有権
   - 他者のデジタルコンテンツの不正投稿をフラグ付けする
   - 潜在的な知的財産権侵害を特定する

8. AI生成コンテンツの検出
   - AI生成コンテンツの兆候に注意する：過度にフォーマルな言語、一般的なフレーズ、個性に欠ける完璧な文法
   - テンプレート的、具体性に欠ける、または議論に具体的に関与しないコンテンツをフラグ付けする
   - 包括的だが実際の洞察が浅いように見える応答に敏感になる
   - 通常とは異なるフレーズパターン、不必要な冗長性、または繰り返し構造を持つ投稿を特定する

出力形式：
モデレーション評価は非常に簡潔でなければなりません：
**[優先度]**: 特定された主要な問題を含む1〜2文の正当化
読みやすさのためにMarkdownフォーマットを使用しますが、可能な限り合計応答を3行未満に保ちます。

コンテンツを評価する際は、コンテキスト、ユーザー履歴、フォーラムの規範を考慮してください。モデレーションなしで通過するコンテンツには高い基準を設定してください。「無視」優先度は、明らかに価値のある貢献に対してのみ予約し、軽微な問題であっても「低」優先度を使用してください。

---

すべての投稿を懐疑的な目で判断してください。明確で本物の価値のある貢献に対してのみ「無視」優先度を使用してください。投稿の価値または信憑性について不明な点がある場合は、人間のレビューのために少なくとも「低」優先度を割り当ててください。

このプロンプトは、はるかにノイズの多いチャットチャネルにつながります。

観察

この実験は紆余曲折を経ますが、非常に興味深いものが形成されているのを見ています。

すべてのモデレーションがフラグベースである必要はありません。時には、アイデアや何かが起こっているという認識があるだけで十分です。

この種のツールは、コミュニティにおけるAIのビジョンと非常によく一致しています。モデレーターに何を見るべきかのアイデアを与える「小さなAIサイドキック」です。さらに、一般的なガイドラインやルールを施行する機会でもあります。

一部の小規模コミュニティは「しつこい」AIサイドキックを望むかもしれませんが、他のより大きく忙しいコミュニティは、極端な異常行動の注意しか払えないかもしれません。

ここで作業を検討している将来の領域は次のとおりです。

モデレーターボットが介入して同じトピックについて二度尋ねるのは少し迷惑です。古いものを折りたたむ、スレッド化する、またはその他のアプローチは、これを回避するための興味深いアプローチになる可能性があります。
@hugh は、このようなチャットチャネルを見ると、ボットに自分の代わりにアクションを実行するように依頼したくなると指摘しました。例：
- 深い調査を行い、詳細なガイダンスを提供する
- ああ、これは本当にひどいユーザーのようですね。このユーザーを3日間禁止するのを手伝ってください
- この問題を追跡するために、内部バグトラッカーにバグを開く
- など。

ボットが私たちの代わりにアクションを実行できる状態にするには、ツールがユーザーの承認を求めることができるDiscourse AIの新しい構造が必要です。これは私が考えていることです。

OPで提起されたように、バッチを実行できると良いのですが、プロンプトを編集してから編集が機能したかどうかを知るまでのリードタイムが長すぎます。自動化にこれを追加する方法を考えています。
ライブチューニングは興味深い概念です…「ねえボット、これは多すぎます。なぜ私にこの件でうるさく言うのですか？」…「ボット… X、Y、Z…私の指示セットを改善してほしいですか？」…「はい」

これが皆さんの役に立つことを願っています。質問があればお知らせください。

トピック		返信	表示
Introducing Discourse AI Blog	26	4132	2023 年 5 月 4 日
AI integration for moderation Support	2	173	2026 年 1 月 25 日
AI Forum Moderation: Seeking Insights and Experiences Development ai	8	2010	2025 年 9 月 27 日
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	2	485	2023 年 7 月 7 日
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	1402	2024 年 10 月 10 日

Discourse MetaにおけるAIベースのモデレーション実験

観察

関連トピック