Настройка обнаружения NSFW-контента в вашем сообществе

:bookmark: Это руководство по настройке обнаружения контента NSFW в вашем сообществе с использованием автоматизации Discourse AI для выявления и модерации неподходящих изображений и текста.

:person_raising_hand: Требуемый уровень пользователя: Администратор

Настройка обнаружения NSFW в вашем сообществе

Автоматически обнаруживайте и модерируйте контент NSFW (Not Safe for Work — не предназначенный для просмотра на работе) в вашем сообществе Discourse с помощью автоматизации на базе ИИ. Это руководство поможет вам настроить автоматическое обнаружение как неподходящих изображений, так и текстового контента, что позволит поддерживать стандарты сообщества с минимальным ручным вмешательством.

Краткое описание

Эта документация описывает настройку автоматизации Discourse AI Триаж постов с помощью ИИ для:

  • Обнаружения NSFW-изображений с использованием моделей ИИ с поддержкой зрения
  • Выявления неподходящего текстового контента и языка
  • Автоматической пометки, категоризации и модерации проблемных постов
  • Настройки пользовательских ответов и действий модерации

Автоматизация использует большие языковые модели (LLM) для анализа содержания постов и выполняет заранее определенные действия при обнаружении материалов NSFW.

Предварительные требования

Перед настройкой обнаружения NSFW убедитесь, что у вас включены следующие компоненты:

  • Плагин Discourse AI — основной плагин функциональности ИИ
  • Плагин Discourse Automation: необходим для создания автоматических правил
  • Агент: Агент с системным промптом, определяющим, что считается контентом NSFW. Используйте различный язык для положительных и отрицательных классификаций, чтобы избежать путаницы.
  • LLM с поддержкой зрения: требуется только для обнаружения изображений; стандартные LLM работают для обнаружения только текста. Убедитесь, что для модели LLM и Агента включена опция “Поддержка зрения”.
    • Клиенты, использующие хостинг Discourse, могут выбрать наш CDCK Hosted Small LLM при настройке Агентов.
    • Пользователи с самостоятельным хостингом Discourse должны настроить стороннюю LLM.

Примеры промптов:

Для обнаружения изображений:

Вы — бот, специализирующийся на классификации изображений. Отвечайте только одним из двух вариантов: NSFW или SAFE, и больше ничего. NSFW — это порнография или кровавые сцены, а SAFE — всё остальное. В случае сомнений отвечайте SAFE.

Для обнаружения текста:

Вы — передовая система модерации контента на базе ИИ, предназначенная для проведения триажа пользовательских постов. Ваша задача — обнаруживать и помечать любой контент, содержащий нецензурную лексику, неподходящие термины или контент NSFW (Not Safe for Work — не предназначенный для просмотра на работе).

Контент NSFW включает откровенный сексуальный контент, насилие, язык вражды, графическую лексику, дискриминацию, упоминания самоповреждения или незаконную деятельность.

Ответьте ровно одним словом:
* "SAFE": Пост уместен и не содержит плохого или NSFW-контента
* "NSFW": Если обнаружен плохой, неподходящий или NSFW-контент

Будьте внимательны к контексту и избегайте ложных срабатываний.

Шаги конфигурации

Включение необходимых плагинов

  1. Перейдите в административную панель вашего сайта
  2. Перейдите в раздел Плагины > Установленные плагины
  3. Включите оба плагина: Discourse AI и Automation

Создание правила автоматизации

  1. В административной панели перейдите в раздел Плагины > Automation
  2. Нажмите + Создать, чтобы начать создание нового правила автоматизации
  3. Выберите Триаж постов с помощью ИИ
  4. Задайте описательное имя (например, “Обнаружение контента NSFW”)

Настройка триггеров и ограничений

Установка триггера:

  • Выберите Пост создан/отредактирован в качестве триггера для сканирования новых или отредактированных постов
  • В качестве альтернативы выберите Застойная тема для проведения триажа тем, которые не получали ответов в течение указанного времени
  • При желании укажите тип действия, категории, теги, группы, уровни доверия или особенности постов для ограничения области действия автоматизации
  • Оставьте поля пустыми, чтобы применить автоматизацию ко всему сайту

Дополнительные ограничения (триггер “Пост создан/отредактирован”):
Настройте дополнительные параметры для дальнейшего ограничения области действия автоматизации:

  • Только первый пост или Только исходный пост, чтобы нацелиться только на новые темы
  • Только первая тема, чтобы нацелиться только на первую тему пользователя
  • Особенности постов для ограничения постами с изображениями, ссылками, кодом или вложениями — полезно для обнаружения NSFW на основе изображений
  • Ограниченный архетип для ограничения обычными темами, публичными темами или личными сообщениями

Настройка классификации ИИ

:spiral_notepad: Поле системного промпта устарело и заменено Агентами. Если у вас была автоматизация ИИ до этого изменения, новый Агент с соответствующим системным промптом будет создан автоматически.

Агент:
Выберите Агента, определенный для автоматизации обнаружения NSFW.

Поиск текста:
Введите точный вывод из вашего промпта, который запускает действия автоматизации. Используя приведенные выше примеры, введите NSFW.

Дополнительные параметры:

  • Макс. токенов поста: ограничьте количество токенов поста, отправляемых в LLM
  • Макс. выходных токенов: установите верхний предел количества токенов, которые может генерировать модель
  • Стоп-последовательности: укажите модели остановиться при encountering определенных значений

Настройка действий модерации

Категоризация и тегирование:

  • Определите категорию, в которую должны перемещаться помеченные посты
  • Укажите теги, которые будут добавляться к выявленному контенту NSFW

Варианты пометки:

  • Включите Пометить пост, чтобы активировать пометку, затем выберите тип пометки:
    • Добавить пост в очередь на проверку — отправляет пост в очередь на проверку для ручной модерации
    • Добавить пост в очередь на проверку и скрыть пост — очередь на проверку + немедленное скрытие поста
    • Добавить пост в очередь на проверку и удалить пост — очередь на проверку + мягкое удаление поста
    • Добавить пост в очередь на проверку, удалить пост и замолчать пользователя — очередь на проверку + мягкое удаление поста + молчание автора
    • Пометить как спам и скрыть пост — помечает пост как спам (автоматически скрывает его)
    • Пометить как спам, скрыть пост и замолчать пользователя — пометка как спам + молчание автора
  • Включите Скрыть тему, чтобы автоматически скрыть всю тему

Автоматические ответы:

  • Установите Ответить пользователю и Ответ (шаблонный ответ), чтобы отправить фиксированное сообщение, объясняющее, почему пост был помечен
  • Выберите Агент ответа, чтобы использовать отдельного агента ИИ для генерации динамических ответов (это имеет приоритет над шаблоном ответа)
  • Включите Ответить как шепот, чтобы сделать ответ видимым только для сотрудников

Уведомления автора:

  • Включите Уведомить автора через ЛС, чтобы отправить личное сообщение автору поста, когда его контент помечен
  • Установите пользователя-отправителя ЛС (по умолчанию — система) и при желании предоставьте пользовательский содержимое ЛС

Другие параметры:

  • Включите Включить личные сообщения, чтобы также сканировать и проводить триаж личных сообщений

Предостережения

  • Помните, что вызовы LLM могут быть дорогостоящими. При применении классификатора внимательно следите за затратами и всегда рассмотрите возможность запуска этого только на небольших подмножествах.
  • Хотя более производительные модели, например GPT-4o, дадут лучшие результаты, это может стоить дороже. Однако мы наблюдали снижение затрат со временем, поскольку LML становятся еще лучше и дешевле

Другие варианты использования

Промпт можно настроить для выполнения различных видов обнаружения, таких как раскрытие PII и обнаружение спама. Мы будем рады услышать, как вы используете эту автоматизацию для блага вашего сообщества!

8 лайков

Пост был разделён на новую тему: LLM и задержка обнаружения контента NSFW