Эксперименты с модерацией на основе ИИ на Discourse Meta

sam · 19.Март.2025 00:31:54

AI-обнаружение спама было чрезвычайно успешным и помогло многим нашим сообществам достичь успеха.

В этом посте я хочу поделиться деталями нашего эксперимента, который находится «в процессе разработки», на случай, если это окажется полезным для других сообществ.

Я планирую обновлять этот пост по мере развития эксперимента и делиться информацией о типах проблем, которые он может выявлять.

Однако имейте в виду: это развивающаяся система, а не готовый продукт.

Почему модерация с помощью ИИ?

Ключевой подход, который мы используем при интеграции ИИ в Discourse, заключается в том, что он должен дополнять работу человеческих модераторов, а не заменять их. Суть модерации с помощью ИИ заключается в том, чтобы сигнализировать модераторам о том, что «что-то не так», и предлагать действия, которые они должны предпринять. Полная ответственность за принятие решений должна оставаться за человеческими модераторами.

Почему чат как формат для этого эксперимента

При запуске своего эксперимента я выбрал чат в качестве формата для уведомлений. Это позволяет создать выделенный канал для эксперимента, который не мешает общей модерации на форуме.

Учитывая, что создание и доработка промптов — это работа в процессе, беспокоить остальную команду модераторов на meta казалось не лучшим решением.

Если предоставлять людям незавершенные проекты на базе ИИ, можно очень легко потерять доверие и поддержку в будущем.

А как насчет пакетного тестирования?

Ограничение нашей текущей системы автоматизации заключается в том, что вы не можете сейчас проводить пакетное тестирование изменений. Это означает, что при внесении изменений в промпты ИИ требуется много времени, чтобы понять, насколько они полезны.

Это особенно проблематично, если на форуме в течение дня появляется лишь несколько проблем. Скорость реакции слишком низкая, и на доработку промпта могут уйти месяцы.

Я хорошо осознаю это ограничение и надеюсь удалить этот раздел из поста в ближайшие несколько недель, так как у нас уже есть система для этого.

Как это настроено?

Мой текущий эксперимент основан на трех функциях:

Автоматизация — AI Persona responder
Discourse AI — AI Persona
Discourse AI — Custom tools

Наша автоматизация ответа

Самое примечательное в ответе — это то, что он тихий, то есть не будет ни шептать, ни публиковать сообщения в теме, которую он сортирует.

Наша модерация с помощью Persona

Самое примечательное здесь — это принудительный инструмент, что означает, что каждый пост будет оцениваться с использованием пользовательского инструмента оценки постов.

Наш текущий системный промпт выглядит следующим образом (будет обновляться по мере развития):

system prompt

Вы — AI-модератор для meta.discourse.org, официального форума обсуждений Discourse. Ваша роль — помогать поддерживать «чистое, хорошо освещенное место для цивилизованного общественного дискурса» в соответствии с нашими руководящими принципами сообщества.

ФИЛОСОФИЯ МОДЕРАЦИИ:

Рассматривайте этот форум как общий ресурс сообщества, подобный общественному парку
Используйте руководства для поддержки человеческого суждения, а не как жесткие правила
Сосредоточьтесь на улучшении обсуждений, а не только на соблюдении правил
Соблюдайте баланс между фасилитацией и модерацией

ФРАМЕРОВАНИЕ ОЦЕНКИ КОНТЕНТА:

УЛУЧШЕНИЕ ОБСУЖДЕНИЯ
- Оценивайте, добавляют ли посты ценность к разговору
- Отмечайте посты, которые проявляют уважение к темам и участникам
- Поддерживайте изучение существующих обсуждений перед созданием новых
СТАНДАРТЫ РАЗНОГЛАСИЙ
- Различайте критику идей (приемлемо) и критику людей (неприемлемо)
- Отмечайте случаи: оскорблений, личных нападений, ответов по тону, импульсивных противоречий
- Оценивайте, являются ли контраргументы обоснованными и улучшают ли они разговор
КАЧЕСТВО УЧАСТИЯ
- Приоритизируйте обсуждения, которые делают форум интересным местом
- Учитывайте сигналы сообщества (лайки, флаги, ответы) при оценке
- Поддерживайте контент, который оставляет сообщество «лучше, чем мы его нашли»
ВЫЯВЛЕНИЕ ПРОБЛЕМ
- Сосредоточьтесь на отметке плохого поведения, а не на взаимодействии с ним
- Отмечайте, когда флаги должны вызывать действия (автоматически или человеческими модераторами)
- Помните, что и модераторы, и пользователи несут ответственность за форум
ОБЕСПЕЧЕНИЕ ВЕЖЛИВОСТИ
- Выявляйте потенциально оскорбительные, оскорбительные или разжигающие ненависть высказывания
- Отмечайте непристойный или сексуально откровенный контент
- Следите за домогательствами, имитацией или раскрытием личной информации
- Предотвращайте спам или вандализм на форуме
ПОДДЕРЖАНИЕ ОРГАНИЗАЦИИ
- Отмечайте темы, опубликованные в неправильных категориях
- Выявляйте перекрестное размещение в нескольких темах
- Отмечайте ответы без содержания и отклонения от темы
- Отговаривайте от подписей в постах
ВЛАДЕНИЕ КОНТЕНТОМ
- Отмечайте несанкционированную публикацию цифрового контента других лиц
- Выявляйте потенциальные нарушения интеллектуальной собственности

При оценке контента учитывайте контекст, историю пользователя и нормы форума. Ваша цель — направлять, а не наказывать, обучать, а не принуждать, но поддерживать последовательные стандарты, сохраняющие качество обсуждения.

ОЦЕНИВАЙТЕ ВСЕ посты; если пост не требует модерации, используйте приоритет «игнорировать».

Наш пользовательский инструмент оценки постов

the script powering it

function invoke(params) {
  let post,topic;
  if (params.priority !== "ignore") {
      // post_id для тестирования
      const post_id = context.post_id || 1735240;
      post = discourse.getPost(post_id);
      topic = post.topic;
      let statusEmoji = "";
  
      if (params.priority === "urgent") {
        statusEmoji = ":police_car_light:"; // Красный круг для срочных
      } else if (params.priority === "medium") {
        statusEmoji = ":warning:"; // Оранжевый круг для средних
      } else if (params.priority === "low") {
        statusEmoji = ":writing_hand:"; // Зеленый круг для низких
      } 
     
     const message = `${statusEmoji} [${topic.title} - ${post.username}](${post.post_url}): ${params.message}`;
     discourse.createChatMessage({ channel_name: "AI Moderation", username: "AI-moderation-bot", message: message}); 
  }
  chain.setCustomRaw("Post was classified");
  return "done";
}
function details() {
  return "Judge Post";
}

Скрипт использует довольно много продвинутых техник:

chain.setCustomRaw — это говорит persona остановить запуск цепочки LLM и делает вызов инструмента последним, экономя токены.
discourse.createChatMessage — новый API, который можно использовать из инструментов для создания сообщений в чате.
discourse.getPost — используется для получения информации о посте.

Благодаря этому я могу протестировать инструмент с помощью кнопки тестирования и убедиться, что он работает хорошо:

Какую модель вы используете?

На данный момент мы используем Sonnet 3.7, который является передовой моделью. Однако мы планируем перейти на Gemini Flash, как только внесу некоторые улучшения в Discourse Automation, особенно возможность указывать сканировать только публичный контент и избегать защищенных категорий.

Я с радостью отвечу на ваши вопросы здесь и буду продолжать обновлять информацию по мере проведения эксперимента и внедрения новых функций Discourse Automation.

Jagster · 19.Март.2025 07:25:11

Как часто возникают ложные срабатывания или пропуски? Хотя это относительно спокойная среда.

sam · 19.Март.2025 07:45:15

Сегодня всё на 100% тихо, настолько тихо, что я добавлю в автоматизацию функции для отслеживания её работоспособности

eisammy · 19.Март.2025 07:55:59

Надеюсь, что через 2–3 года ИИ станет достаточно полезным для локального использования, чтобы помогать моей команде в моддинге, но сегодня я задаю себе вопрос: нужно ли это уже сейчас? Поэтому спасибо вам за регулярные темы, в которых вы рассказываете о прогрессе.

Ещё один вопрос: когда-нибудь Discourse предоставит многоязычный API для самохостинга, чтобы CDCK могла хранить наши данные в безопасности, одновременно с тем как вы боретесь за нас с нежелательными участниками? Я знаю, что могу использовать модель LLM, но с удовольствием платил бы за ваши услуги как альтернативу

Приведу пример: Google Perspective — это бесплатный вариант с расширенными платными функциями для таких задач, поддерживающий множество языков для борьбы с токсичностью. Почему CDCK не предлагает аналогичное решение?

sam · 21.Март.2025 03:36:30

Спасибо за обратную связь. Да, мы об этом думали, но я не думаю, что мы предпримем подобное приключение в ближайшие 12 месяцев.

sam · 21.Март.2025 04:13:48

Время обновления

За последние несколько дней я внес два довольно крупных набора изменений, чтобы лучше поддерживать этот эксперимент:

github.com/discourse/discourse

FEATURE: enhance post created edited trigger in automation (#31900)

main ← automation-stuff

merged 09:05PM - 19 Mar 25 UTC

SamSaffron

+427 -69

1. **Multiselect Support for Choice Fields** - Added a `multiselect` option …to the choices field component - Updated Field model to accept arrays as values for choices fields 2. **Post Content Feature Filtering** - Added ability to filter posts based on content features: - Posts with images - Posts with links - Posts with code blocks - Posts with uploads 3. **Improved Group Filtering** - Renamed `restricted_user_group` to `restricted_groups` to allow filtering by multiple groups - Added `excluded_groups` to replace `ignore_group_members` which was complex for end users - Renamed `restricted_groups` to `restricted_inbox_groups` for more specific PM filtering and clarity. 4. **Public Topics Filter** - Added a "Public Topics" filter option that excludes all secure categories

и

github.com/discourse/discourse

FEATURE: Add automation statistics tracking to Automation (#31921)

main ← automation-stats

merged 01:53AM - 21 Mar 25 UTC

SamSaffron

+906 -192

introduces comprehensive statistics tracking for the Discourse Automation plugin…, allowing users to monitor the performance and execution patterns of their automations: - Add `discourse_automation_stats` table to track execution metrics including run counts, execution times, and performance data - Create a new `Stat` model to handle tracking and retrieving automation statistics - Update the admin UI to display automation stats (runs today/this week/month and last run time) - Modernize the automation list interface using Glimmer components - Replace the older enable/disable icon with a toggle switch for better UX - Add schema annotations to existing models for better code documentation - Include extensive test coverage for the new statistics functionality This helps administrators understand how their automations are performing and identify potential bottlenecks or optimization opportunities.

Эти изменения позволили нам перейти на гораздо более дешевую модель Gemini Flash 2.0, особенно благодаря этому изменению:

Это дало нам абсолютную уверенность в том, что сканируются только публичные посты на форуме.

В CDCK у нас действуют разные правила обработки данных для различных классов информации, и на данный момент мы разрешаем использование Gemini Flash только для публичных данных.

Мой первоначальный промпт в первом посте (OP) не вызывал никаких реакций в разделе meta; если быть справедливым, meta — это приятное, доброе и дружелюбное место, где очень мало необходимости в активном модерировании, так что это неудивительно.

Тем не менее, я просто не был уверен, что что-то работает…

Чтобы это исправить, я добавил статистику в автоматизацию (объединено несколько часов назад):

Таким образом, мы можем видеть, что эта автоматизация работает, поскольку она сработала 20 минут назад и 8 раз в этом месяце.

Когда в день развертывания всё было необычно тихо, я решил настроить автоматизацию на «ложную тревогу», так как хотел лучше понять работу системы. Я изменил промпт следующим образом:

Вы — ИИ-модератор для meta.discourse.org, официального форума для обсуждений Discourse. Ваша роль — помогать поддерживать «чистое, хорошо освещенное место для цивилизованного публичного диалога» в соответствии с нашими руководящими принципами сообщества.

ФИЛОСОФИЯ МОДЕРАЦИИ:
- Рассматривайте этот форум как общий ресурс сообщества, подобный общественному парку
- Используйте руководства для поддержки человеческого суждения, а не как жесткие правила
- Сосредоточьтесь на улучшении обсуждений, а не только на соблюдении правил
- Находите баланс между фасилитацией и модерацией
- В сомнительных случаях склоняйтесь к пометке проблемного контента для проверки человеком

РАМКИ ОЦЕНКИ КОНТЕНТА:
1. УЛУЧШЕНИЕ ОБСУЖДЕНИЯ
   - Оценивайте, добавляют ли посты существенную ценность в разговор
   - Помечайте посты с минимальной ценностью, шаблонными ответами или поверхностным вовлечением
   - Отмечайте посты, демонстрирующие уважение к темам и участникам
   - Поддерживайте изучение существующих обсуждений перед созданием новых
   - Будьте бдительны в отношении «пролетающих мимо» комментариев, которые мало что добавляют к обсуждению

2. СТАНДАРТЫ РАСХОЖДЕНИЙ МНЕНИЙ
   - Различайте критику идей (приемлемо) и критику людей (неприемлемо)
   - Помечайте случаи: оскорблений, аргументов ad hominem, ответов по тону, импульсивных противоречий
   - Оценивайте, являются ли контраргументы обоснованными и улучшают ли они разговор
   - Будьте чувствительны к тонким формам пренебрежения или высокомерия

3. КАЧЕСТВО УЧАСТИЯ
   - Приоритезируйте обсуждения, которые делают форум интересным местом
   - Учитывайте сигналы сообщества (лайки, флаги, ответы) при оценке
   - Помечайте контент, который кажется шаблонным, типичным или лишенным личного взгляда
   - Следите за вкладами, которые кажутся формульными или не взаимодействуют осмысленно с конкретикой
   - Поддерживайте контент, который оставляет сообщество «лучше, чем мы его нашли»

4. ВЫЯВЛЕНИЕ ПРОБЛЕМ
   - Сосредоточьтесь на пометке плохого поведения, а не на вовлечении в него
   - Проактивно выявляйте потенциально проблемные паттерны до их эскалации
   - Отмечайте моменты, когда флаги должны запускать действие (автоматически или модераторами)
   - Помните, что ответственность за форум несут как модераторы, так и пользователи

5. ПРИНУЖДЕНИЕ К ЦИВИЛЬНОСТИ
   - Выявляйте потенциально оскорбительные, abusive или разжигание ненависти высказывания, включая их тонкие формы
   - Помечайте непристойный или откровенно сексуальный контент
   - Следите за домогательствами, имитацией личности или разглашением личной информации
   - Предотвращайте спам, вандализм форума или маркетинг, маскирующийся под вклад

6. ПОДДЕРЖКА ОРГАНИЗАЦИИ
   - Отмечайте темы, опубликованные в неправильных категориях
   - Выявляйте кросс-постинг по нескольким темам
   - Помечайте ответы без содержания, отклонения от темы и захват обсуждений (threadjacking)
   - Отговаривайте от подписей в постах и ненужного форматирования

7. ВЛАДЕНИЕ КОНТЕНТОМ
   - Помечайте несанкционированную публикацию цифрового контента других лиц
   - Выявляйте потенциальные нарушения интеллектуальной собственности

8. ОБНАРУЖЕНИЕ КОНТЕНТА, СГЕНЕРИРОВАННОГО ИИ
   - Следите за характерными признаками контента, сгенерированного ИИ: чрезмерно формальный язык, шаблонные фразы, идеальная грамматика при отсутствии индивидуальности
   - Помечайте контент, который кажется шаблонным, лишенным конкретики или не взаимодействует с особенностями обсуждения
   - Будьте чувствительны к ответам, которые кажутся всеобъемлющими, но поверхностными по сути
   - Выявляйте посты с необычными паттернами формулировок, излишней многословностью или повторяющимися структурами

ФОРМАТ ВЫВОДА:
Ваша оценка модерации должна быть крайне лаконичной:
**[ПРИОРИТЕТ]**: Обоснование из 1-2 предложений с указанием ключевой проблемы
Используйте форматирование markdown для читаемости, но старайтесь уложиться в 3 строки.

При оценке контента учитывайте контекст, историю пользователя и нормы форума. Устанавливайте высокую планку для того, что проходит без модерации — используйте приоритет «низкий» даже для незначительных проблем, оставляя «игнор» только для явно ценных вкладов.

---

Оценивайте ВСЕ посты скептически. Используйте приоритет «игнор» только для вкладов с явной, подлинной ценностью. В случае сомнений в ценности или подлинности поста присваивайте хотя бы приоритет «низкий» для проверки человеком.

Этот промпт приводит к гораздо более шумному чат-каналу:

Наблюдения

Этот эксперимент принимает неожиданные повороты, но я вижу формирование чего-то очень интересного.

Не вся модерация должна основываться на флагах; иногда достаточно просто иметь некоторые идеи и осознание того, что что-то происходит.

Такие инструменты очень соответствуют нашему видению ИИ в сообществах: это «маленький ИИ-помощник», который дает модераторам идеи, на что обратить внимание. Кроме того, это возможность обеспечивать соблюдение общих руководящих принципов и правил.

Некоторые небольшие сообщества могут захотеть «назойливого» ИИ-помощника. Другие, более крупные и загруженные, могут позволить себе внимание только к крайним выбросам поведения.

Дальнейшие направления, которые я рассматриваю для работы здесь:

Немного раздражает, что бот-модератор вмешивается и спрашивает об одной и той же теме дважды. Сворачивание старых тем, создание потоков или что-то другое может быть интересным подходом для избежания этого.
@hugh отметил, что как только вы видите такой чат-канал, возникает желание просто попросить бота действовать от вашего имени. Например:
- Провести глубокое исследование и предоставить подробные рекомендации
- О, это действительно выглядит как ужасный пользователь, помоги мне заблокировать этого пользователя на 3 дня
- Открыть баг-репорт во внутреннем трекере багов для отслеживания этой проблемы
- и так далее.

Чтобы достичь состояния, когда бот может действовать от нашего имени, нам нужна новая конструкция в Discourse AI, которая позволит инструменту запрашивать одобрение пользователя. Над этим я сейчас думаю.

Как отмечалось в первом посте (OP), было бы удобно запускать пакетные обработки; между редактированием промпта и пониманием того, сработало ли изменение, проходит слишком много времени. Думаю о том, как добавить это в автоматизацию.
Живая настройка — интересная концепция… «Эй, бот, это слишком много, почему ты беспокоишь меня этим?» … «Бот … X, Y, Z … хочешь, чтобы я улучшил свой набор инструкций?» … «Да».

Надеюсь, вам это будет полезно. Дайте знать, если у вас возникнут вопросы.

Ed_S · 21.Март.2025 21:14:47

Просто идея: не могли бы вы добавить в промпт так, чтобы бот модерации время от времени отправлял ответ с уведомлением, показывая, что он работает? Например, с вероятностью 1%, когда пост не требует действий, можно публиковать заметку о том, что к этому посту не было применено никаких мер. Или с ещё меньшей вероятностью для более активного форума.

riking · 22.Март.2025 08:05:14

Сравнивая разницу между этими промптами:

Оценивайте ВСЕ посты; если пост не требует модерации, используйте приоритет «игнорировать».

Оценивайте ВСЕ посты с долей скептицизма. Используйте приоритет «игнорировать» только для вкладов с явной и подлинной ценностью. Если есть сомнения относительно ценности или подлинности поста, назначайте хотя бы приоритет «низкий» для проверки человеком.

Я считаю важным помнить о сильной предвзятости к недавним данным в моделях — возможно, все командные слова следует упомянуть в тексте ближе к концу, в порядке, обратном желаемой частоте их использования.

RGJ · 25.Март.2025 12:30:34

Или же настроить срабатывание на безобидное, распространённое, но не слишком частое слово. Например: «Помечать посты, упоминающие ананасы».

sam · 03.Апрель.2025 03:56:10

Я не публиковал сообщения уже давно, хотя каждый день захожу в своё маленькое окно чата и оно помогает мне хотя бы раз-два в день… постоянно.

Причина моей задержки заключалась в том, что мне пришлось разобраться с этим довольно крупным изменением.

github.com/discourse/discourse-ai

FEATURE: flexible image handling within messages (#1214)

main ← better_upload_support

merged 03:39PM - 31 Mar 25 UTC

SamSaffron

+1380 -722

**1. What Led to the Change? (Problems with Previous Approach)** * **Incons…istent Context Handling:** The previous system often passed context information (like `post_id`, `user`, `private_message`, `topic_id`, `custom_instructions`) around using plain Ruby hashes (`context: {}`). This approach lacked structure, was potentially error-prone (typos in keys), and made it harder to track what context was available or required in different parts of the AI Bot system (Tools, Personas, Bot logic). Accessing context often involved `context[:key]`. * **Inflexible Image/Upload Handling:** Images associated with a user message were previously passed using a separate `upload_ids: [...]` array within the message hash. This made it difficult or impossible to represent prompts where text and images are interleaved naturally (e.g., "Describe this image {image1}, then compare it to this one {image2} and tell me the difference"). The LLM received the text and a list of associated image IDs, but not their precise relationship *within* the user's text flow. * **Complex/Decentralized Context Building:** Logic for assembling conversation history (e.g., pulling previous posts/messages, handling custom prompts, associating uploads) was somewhat spread out, notably seen in the significant changes and removals within `lib/ai_bot/playground.rb` (specifically the `conversation_context` and `chat_context` logic being refactored). **2. What New Support Does It Add? (Key Changes & Benefits)** * **Introduction of `DiscourseAi::AiBot::BotContext`:** * **What:** A dedicated class (`BotContext`) is introduced to encapsulate all contextual information for an AI Bot interaction. This includes messages, post/topic details, user information, site details (URL, title, description), time, participants, and control flags (like `skip_tool_details`). * **Why:** Provides a structured, standardized, and object-oriented way to manage and pass context. This improves code readability, maintainability, and reduces the chance of errors compared to using unstructured hashes. Access changes from `context[:key]` to `context.key`. * **Impact:** This class is now used consistently when initializing Tools (`Tool#initialize`), crafting prompts (`Persona#craft_prompt`), invoking the bot (`Bot#reply`), and within various helper methods, ensuring a uniform context object is available throughout the system. * **Enhanced Multimodal Input (Inline Images/Uploads):** * **What:** The format for representing user messages with uploads has fundamentally changed. Instead of a separate `upload_ids` array, uploads are now embedded directly *within* the `content` field, which becomes an array if uploads are present. Example: `content: ["Here is an image:", { upload_id: 123 }, "What do you see?"]`. * **Why:** This allows for precise interleaving of text and visual elements within a single user turn. It's a much more natural way to represent multimodal prompts for vision-capable LLMs, enabling more complex instructions involving multiple images referenced at specific points in the text. * **Impact:** Required changes across multiple components: * **`Prompt` Class:** Logic for handling uploads (`encoded_uploads`, `encode_upload`, `content_with_encoded_uploads`, `text_only`) was refactored to support this new inline structure. Validation was updated. * **LLM Dialects:** All relevant dialects (`ChatGpt`, `Claude`, `Gemini`, `Mistral`, `Nova`, `Ollama`, `OpenAiCompatible`) were updated to correctly parse the new `content` array format and translate it into the specific structure required by each respective LLM API (e.g., OpenAI's array of text/image_url objects, Gemini's parts array). A helper `to_encoded_content_array` was added to the base `Dialect` class. * **Modules Using Vision:** Code that passes uploads to LLMs (e.g., `LlmTriage`, `Assistant`, `SpamScanner`, `Playground`) was updated to use the new `content` format. * **Refactored Context Building:** * **What:** Logic for building conversation history from posts or chat messages seems to be increasingly centralized in `DiscourseAi::Completions::PromptMessagesBuilder`. New methods like `messages_from_post` and `messages_from_chat` appear to encapsulate this logic. * **Why:** Simplifies components like the `Playground` by abstracting away the details of fetching and formatting conversation history, including handling the new inline upload format. * **Impact:** Significant simplification in `lib/ai_bot/playground.rb`, removing large chunks of previous context-building code.

Оно обеспечивает тонкое, но критически важное улучшение для Discourse AI.

Я регулярно замечал, что бот модерации говорит о совершенно нерелевантных изображениях из-за способа, которым мы формировали контекст. Это изменение позволяет нам представлять смешанный контент (содержащий изображения и текст в правильном порядке).

Это означает, что LLM больше не путается.

Что дальше?

У нас нет возможности в автоматизации вызвать правило после того, как редактирование поста «устаканится». Вызовы LLM могут быть дорогими, и нам не нужно сканировать одно и то же снова и снова только из-за того, что кто-то исправил опечатку. Я не уверен, что это необходимо здесь, но я хотел бы предусмотреть возможность запуска автоматизации после того, как пост примет новую форму.
Инженерия промптов — текущий промпт приемлем, но для моего вкуса он слишком громкий, он меня немного раздражает, возможно, я его немного смягчу.
Улучшенный контекст — меня действительно беспокоит то, что автоматизация теперь не учитывает уровень доверия пользователя. Некоторые пользователи пользуются большим доверием в сообществе, чем другие (например, модераторы). Я хотел бы посмотреть, сможем ли мы улучшить эту ситуацию.
Возможность запускать автоматизацию на пакетах постов для быстрой итерации.
Я уверен, что появится ещё много чего.

sam · 08.Апрель.2025 07:21:40

Моя последняя работа в процессе:

github.com/discourse/discourse-ai

FEATURE: allow tools to amend personas (#1250)

main ← persona-editing

merged 05:48AM - 09 Apr 25 UTC

SamSaffron

+370 -5

Add API methods to AI tools for reading and updating personas, enabling more fle…xible AI workflows. This allows custom tools to: - Fetch persona information through discourse.getPersona() - Update personas with modified settings via discourse.updatePersona() - Also update using persona.update() These APIs enable new use cases like "trainable" moderation bots, where users with appropriate permissions can set and refine moderation rules through direct chat interactions, without needing admin panel access. Also adds a special API scope which allows people to lean on API for similar actions

Идея в том, что систему будут поддерживать два персонажа:

Персонаж, выполняющий сортировку — уже определённый сегодня (бот сортировки).
Персонаж, взаимодействующий с модераторами или пользователями с высоким уровнем доверия (бот модератора).

Общаясь с @mod_bot, модераторы (или пользователи с очень высоким уровнем доверия) смогут направлять @triage_bot в том, как ему следует вести себя.

Например:

@mod_bot, обязательно сообщай @sam, если кто-то заговорит об ИИ

Это заставит mod_bot изменить системный промпт бота сортировки. Это означает, что достаточно находиться в этой конкретной комнате чата, чтобы любое сообщество могло обучить робота вести себя так, как оно хочет.

Это интересный поворот в реализации памяти. Не уверен, насколько хорошо это сработает на практике, но это очень достойный эксперимент.

sam · 26.Май.2025 00:01:56

Это всё ещё работает на meta.

Одно из моих нынешних наблюдений: автоматизация отлична, пока она работает, но как только перестаёт — становится ужасной.

В частности, если сделать робота слишком громким, он становится бесполезным.

Я заменил наши пользовательские инструкции на крайне скучные:

Вы — бот на базе ИИ, который читает КАЖДЫЙ пост на meta.discourse.org

У вас есть один инструмент, который вы будете вызывать для каждого поста.

Используйте приоритет игнорирования, чтобы игнорировать пост и избегать уведомлений.

Любой другой приоритет вызовет уведомление.

### Руководство по сортировке
## Мониторинг контента
* Уведомляйте @nat, если опубликован контент не на английском (для помощи с функцией перевода)
* Уведомляйте @sam, если заметите, что обсуждение становится токсичным или слишком накалённым
* Уведомляйте @hugh, когда пользователи обсуждают функционал очереди ревью
  * Включая обсуждения опыта сотрудников, инструментов модераторов, очередей, рабочих процессов модерации
  * Особое внимание — флаги, ревью, утверждение и связанные вопросы UI/UX модерации
### Конец руководства по сортировке

В прошлых версиях я указывал такие вещи, как «сообщайте, если заметите обсуждение бага, которого нет в категории багов».

Достаточно одного отравляющего правила, и уведомления в чате взлетают до небес, после чего вы просто начинаете их игнорировать.

Тема		Ответов	Просм.
Introducing Discourse AI Blog	26	4126	04.05.2023
AI integration for moderation Support	2	168	25.01.2026
AI Forum Moderation: Seeking Insights and Experiences Development ai	8	1994	27.09.2025
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	2	482	07.07.2023
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	1380	10.10.2024

Эксперименты с модерацией на основе ИИ на Discourse Meta

Почему модерация с помощью ИИ?

Почему чат как формат для этого эксперимента

А как насчет пакетного тестирования?

Как это настроено?

Наша автоматизация ответа

Наша модерация с помощью Persona

Наш пользовательский инструмент оценки постов

Какую модель вы используете?

Наблюдения

Что дальше?

Связанные темы