Эксперименты с модерацией на основе ИИ на Discourse Meta

sam · 21.Март.2025 04:13:48

Время обновления

За последние несколько дней я внес два довольно крупных набора изменений, чтобы лучше поддерживать этот эксперимент:

github.com/discourse/discourse

FEATURE: enhance post created edited trigger in automation (#31900)

main ← automation-stuff

merged 09:05PM - 19 Mar 25 UTC

SamSaffron

+427 -69

1. **Multiselect Support for Choice Fields** - Added a `multiselect` option …to the choices field component - Updated Field model to accept arrays as values for choices fields 2. **Post Content Feature Filtering** - Added ability to filter posts based on content features: - Posts with images - Posts with links - Posts with code blocks - Posts with uploads 3. **Improved Group Filtering** - Renamed `restricted_user_group` to `restricted_groups` to allow filtering by multiple groups - Added `excluded_groups` to replace `ignore_group_members` which was complex for end users - Renamed `restricted_groups` to `restricted_inbox_groups` for more specific PM filtering and clarity. 4. **Public Topics Filter** - Added a "Public Topics" filter option that excludes all secure categories

и

github.com/discourse/discourse

FEATURE: Add automation statistics tracking to Automation (#31921)

main ← automation-stats

merged 01:53AM - 21 Mar 25 UTC

SamSaffron

+906 -192

introduces comprehensive statistics tracking for the Discourse Automation plugin…, allowing users to monitor the performance and execution patterns of their automations: - Add `discourse_automation_stats` table to track execution metrics including run counts, execution times, and performance data - Create a new `Stat` model to handle tracking and retrieving automation statistics - Update the admin UI to display automation stats (runs today/this week/month and last run time) - Modernize the automation list interface using Glimmer components - Replace the older enable/disable icon with a toggle switch for better UX - Add schema annotations to existing models for better code documentation - Include extensive test coverage for the new statistics functionality This helps administrators understand how their automations are performing and identify potential bottlenecks or optimization opportunities.

Эти изменения позволили нам перейти на гораздо более дешевую модель Gemini Flash 2.0, особенно благодаря этому изменению:

Это дало нам абсолютную уверенность в том, что сканируются только публичные посты на форуме.

В CDCK у нас действуют разные правила обработки данных для различных классов информации, и на данный момент мы разрешаем использование Gemini Flash только для публичных данных.

Мой первоначальный промпт в первом посте (OP) не вызывал никаких реакций в разделе meta; если быть справедливым, meta — это приятное, доброе и дружелюбное место, где очень мало необходимости в активном модерировании, так что это неудивительно.

Тем не менее, я просто не был уверен, что что-то работает…

Чтобы это исправить, я добавил статистику в автоматизацию (объединено несколько часов назад):

Таким образом, мы можем видеть, что эта автоматизация работает, поскольку она сработала 20 минут назад и 8 раз в этом месяце.

Когда в день развертывания всё было необычно тихо, я решил настроить автоматизацию на «ложную тревогу», так как хотел лучше понять работу системы. Я изменил промпт следующим образом:

Вы — ИИ-модератор для meta.discourse.org, официального форума для обсуждений Discourse. Ваша роль — помогать поддерживать «чистое, хорошо освещенное место для цивилизованного публичного диалога» в соответствии с нашими руководящими принципами сообщества.

ФИЛОСОФИЯ МОДЕРАЦИИ:
- Рассматривайте этот форум как общий ресурс сообщества, подобный общественному парку
- Используйте руководства для поддержки человеческого суждения, а не как жесткие правила
- Сосредоточьтесь на улучшении обсуждений, а не только на соблюдении правил
- Находите баланс между фасилитацией и модерацией
- В сомнительных случаях склоняйтесь к пометке проблемного контента для проверки человеком

РАМКИ ОЦЕНКИ КОНТЕНТА:
1. УЛУЧШЕНИЕ ОБСУЖДЕНИЯ
   - Оценивайте, добавляют ли посты существенную ценность в разговор
   - Помечайте посты с минимальной ценностью, шаблонными ответами или поверхностным вовлечением
   - Отмечайте посты, демонстрирующие уважение к темам и участникам
   - Поддерживайте изучение существующих обсуждений перед созданием новых
   - Будьте бдительны в отношении «пролетающих мимо» комментариев, которые мало что добавляют к обсуждению

2. СТАНДАРТЫ РАСХОЖДЕНИЙ МНЕНИЙ
   - Различайте критику идей (приемлемо) и критику людей (неприемлемо)
   - Помечайте случаи: оскорблений, аргументов ad hominem, ответов по тону, импульсивных противоречий
   - Оценивайте, являются ли контраргументы обоснованными и улучшают ли они разговор
   - Будьте чувствительны к тонким формам пренебрежения или высокомерия

3. КАЧЕСТВО УЧАСТИЯ
   - Приоритезируйте обсуждения, которые делают форум интересным местом
   - Учитывайте сигналы сообщества (лайки, флаги, ответы) при оценке
   - Помечайте контент, который кажется шаблонным, типичным или лишенным личного взгляда
   - Следите за вкладами, которые кажутся формульными или не взаимодействуют осмысленно с конкретикой
   - Поддерживайте контент, который оставляет сообщество «лучше, чем мы его нашли»

4. ВЫЯВЛЕНИЕ ПРОБЛЕМ
   - Сосредоточьтесь на пометке плохого поведения, а не на вовлечении в него
   - Проактивно выявляйте потенциально проблемные паттерны до их эскалации
   - Отмечайте моменты, когда флаги должны запускать действие (автоматически или модераторами)
   - Помните, что ответственность за форум несут как модераторы, так и пользователи

5. ПРИНУЖДЕНИЕ К ЦИВИЛЬНОСТИ
   - Выявляйте потенциально оскорбительные, abusive или разжигание ненависти высказывания, включая их тонкие формы
   - Помечайте непристойный или откровенно сексуальный контент
   - Следите за домогательствами, имитацией личности или разглашением личной информации
   - Предотвращайте спам, вандализм форума или маркетинг, маскирующийся под вклад

6. ПОДДЕРЖКА ОРГАНИЗАЦИИ
   - Отмечайте темы, опубликованные в неправильных категориях
   - Выявляйте кросс-постинг по нескольким темам
   - Помечайте ответы без содержания, отклонения от темы и захват обсуждений (threadjacking)
   - Отговаривайте от подписей в постах и ненужного форматирования

7. ВЛАДЕНИЕ КОНТЕНТОМ
   - Помечайте несанкционированную публикацию цифрового контента других лиц
   - Выявляйте потенциальные нарушения интеллектуальной собственности

8. ОБНАРУЖЕНИЕ КОНТЕНТА, СГЕНЕРИРОВАННОГО ИИ
   - Следите за характерными признаками контента, сгенерированного ИИ: чрезмерно формальный язык, шаблонные фразы, идеальная грамматика при отсутствии индивидуальности
   - Помечайте контент, который кажется шаблонным, лишенным конкретики или не взаимодействует с особенностями обсуждения
   - Будьте чувствительны к ответам, которые кажутся всеобъемлющими, но поверхностными по сути
   - Выявляйте посты с необычными паттернами формулировок, излишней многословностью или повторяющимися структурами

ФОРМАТ ВЫВОДА:
Ваша оценка модерации должна быть крайне лаконичной:
**[ПРИОРИТЕТ]**: Обоснование из 1-2 предложений с указанием ключевой проблемы
Используйте форматирование markdown для читаемости, но старайтесь уложиться в 3 строки.

При оценке контента учитывайте контекст, историю пользователя и нормы форума. Устанавливайте высокую планку для того, что проходит без модерации — используйте приоритет «низкий» даже для незначительных проблем, оставляя «игнор» только для явно ценных вкладов.

---

Оценивайте ВСЕ посты скептически. Используйте приоритет «игнор» только для вкладов с явной, подлинной ценностью. В случае сомнений в ценности или подлинности поста присваивайте хотя бы приоритет «низкий» для проверки человеком.

Этот промпт приводит к гораздо более шумному чат-каналу:

Наблюдения

Этот эксперимент принимает неожиданные повороты, но я вижу формирование чего-то очень интересного.

Не вся модерация должна основываться на флагах; иногда достаточно просто иметь некоторые идеи и осознание того, что что-то происходит.

Такие инструменты очень соответствуют нашему видению ИИ в сообществах: это «маленький ИИ-помощник», который дает модераторам идеи, на что обратить внимание. Кроме того, это возможность обеспечивать соблюдение общих руководящих принципов и правил.

Некоторые небольшие сообщества могут захотеть «назойливого» ИИ-помощника. Другие, более крупные и загруженные, могут позволить себе внимание только к крайним выбросам поведения.

Дальнейшие направления, которые я рассматриваю для работы здесь:

Немного раздражает, что бот-модератор вмешивается и спрашивает об одной и той же теме дважды. Сворачивание старых тем, создание потоков или что-то другое может быть интересным подходом для избежания этого.
@hugh отметил, что как только вы видите такой чат-канал, возникает желание просто попросить бота действовать от вашего имени. Например:
- Провести глубокое исследование и предоставить подробные рекомендации
- О, это действительно выглядит как ужасный пользователь, помоги мне заблокировать этого пользователя на 3 дня
- Открыть баг-репорт во внутреннем трекере багов для отслеживания этой проблемы
- и так далее.

Чтобы достичь состояния, когда бот может действовать от нашего имени, нам нужна новая конструкция в Discourse AI, которая позволит инструменту запрашивать одобрение пользователя. Над этим я сейчас думаю.

Как отмечалось в первом посте (OP), было бы удобно запускать пакетные обработки; между редактированием промпта и пониманием того, сработало ли изменение, проходит слишком много времени. Думаю о том, как добавить это в автоматизацию.
Живая настройка — интересная концепция… «Эй, бот, это слишком много, почему ты беспокоишь меня этим?» … «Бот … X, Y, Z … хочешь, чтобы я улучшил свой набор инструкций?» … «Да».

Надеюсь, вам это будет полезно. Дайте знать, если у вас возникнут вопросы.

Тема		Ответов	Просм.
Introducing Discourse AI Blog	26	4126	04.05.2023
AI integration for moderation Support	2	168	25.01.2026
AI Forum Moderation: Seeking Insights and Experiences Development ai	8	1994	27.09.2025
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	2	482	07.07.2023
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	1379	10.10.2024

Эксперименты с модерацией на основе ИИ на Discourse Meta

Наблюдения

Связанные темы