Это руководство по настройке обнаружения контента NSFW в вашем сообществе с использованием автоматизации Discourse AI для выявления и модерации неподходящих изображений и текста.
Требуемый уровень пользователя: Администратор
Настройка обнаружения NSFW в вашем сообществе
Автоматически обнаруживайте и модерируйте контент NSFW (Not Safe for Work — не предназначенный для просмотра на работе) в вашем сообществе Discourse с помощью автоматизации на базе ИИ. Это руководство поможет вам настроить автоматическое обнаружение как неподходящих изображений, так и текстового контента, что позволит поддерживать стандарты сообщества с минимальным ручным вмешательством.
Краткое описание
Эта документация описывает настройку автоматизации Discourse AI Триаж постов с помощью ИИ для:
- Обнаружения NSFW-изображений с использованием моделей ИИ с поддержкой зрения
- Выявления неподходящего текстового контента и языка
- Автоматической пометки, категоризации и модерации проблемных постов
- Настройки пользовательских ответов и действий модерации
Автоматизация использует большие языковые модели (LLM) для анализа содержания постов и выполняет заранее определенные действия при обнаружении материалов NSFW.
Предварительные требования
Перед настройкой обнаружения NSFW убедитесь, что у вас включены следующие компоненты:
- Плагин Discourse AI — основной плагин функциональности ИИ
- Плагин Discourse Automation: необходим для создания автоматических правил
- Агент: Агент с системным промптом, определяющим, что считается контентом NSFW. Используйте различный язык для положительных и отрицательных классификаций, чтобы избежать путаницы.
- LLM с поддержкой зрения: требуется только для обнаружения изображений; стандартные LLM работают для обнаружения только текста. Убедитесь, что для модели LLM и Агента включена опция “Поддержка зрения”.
- Клиенты, использующие хостинг Discourse, могут выбрать наш CDCK Hosted Small LLM при настройке Агентов.
- Пользователи с самостоятельным хостингом Discourse должны настроить стороннюю LLM.
Примеры промптов:
Для обнаружения изображений:
Вы — бот, специализирующийся на классификации изображений. Отвечайте только одним из двух вариантов: NSFW или SAFE, и больше ничего. NSFW — это порнография или кровавые сцены, а SAFE — всё остальное. В случае сомнений отвечайте SAFE.
Для обнаружения текста:
Вы — передовая система модерации контента на базе ИИ, предназначенная для проведения триажа пользовательских постов. Ваша задача — обнаруживать и помечать любой контент, содержащий нецензурную лексику, неподходящие термины или контент NSFW (Not Safe for Work — не предназначенный для просмотра на работе).
Контент NSFW включает откровенный сексуальный контент, насилие, язык вражды, графическую лексику, дискриминацию, упоминания самоповреждения или незаконную деятельность.
Ответьте ровно одним словом:
* "SAFE": Пост уместен и не содержит плохого или NSFW-контента
* "NSFW": Если обнаружен плохой, неподходящий или NSFW-контент
Будьте внимательны к контексту и избегайте ложных срабатываний.
Шаги конфигурации
Включение необходимых плагинов
- Перейдите в административную панель вашего сайта
- Перейдите в раздел Плагины > Установленные плагины
- Включите оба плагина: Discourse AI и Automation
Создание правила автоматизации
- В административной панели перейдите в раздел Плагины > Automation
- Нажмите + Создать, чтобы начать создание нового правила автоматизации
- Выберите Триаж постов с помощью ИИ
- Задайте описательное имя (например, “Обнаружение контента NSFW”)
Настройка триггеров и ограничений
Установка триггера:
- Выберите Пост создан/отредактирован в качестве триггера для сканирования новых или отредактированных постов
- В качестве альтернативы выберите Застойная тема для проведения триажа тем, которые не получали ответов в течение указанного времени
- При желании укажите тип действия, категории, теги, группы, уровни доверия или особенности постов для ограничения области действия автоматизации
- Оставьте поля пустыми, чтобы применить автоматизацию ко всему сайту
Дополнительные ограничения (триггер “Пост создан/отредактирован”):
Настройте дополнительные параметры для дальнейшего ограничения области действия автоматизации:
- Только первый пост или Только исходный пост, чтобы нацелиться только на новые темы
- Только первая тема, чтобы нацелиться только на первую тему пользователя
- Особенности постов для ограничения постами с изображениями, ссылками, кодом или вложениями — полезно для обнаружения NSFW на основе изображений
- Ограниченный архетип для ограничения обычными темами, публичными темами или личными сообщениями
Настройка классификации ИИ
Поле системного промпта устарело и заменено Агентами. Если у вас была автоматизация ИИ до этого изменения, новый Агент с соответствующим системным промптом будет создан автоматически.
Агент:
Выберите Агента, определенный для автоматизации обнаружения NSFW.
Поиск текста:
Введите точный вывод из вашего промпта, который запускает действия автоматизации. Используя приведенные выше примеры, введите NSFW.
Дополнительные параметры:
- Макс. токенов поста: ограничьте количество токенов поста, отправляемых в LLM
- Макс. выходных токенов: установите верхний предел количества токенов, которые может генерировать модель
- Стоп-последовательности: укажите модели остановиться при encountering определенных значений
Настройка действий модерации
Категоризация и тегирование:
- Определите категорию, в которую должны перемещаться помеченные посты
- Укажите теги, которые будут добавляться к выявленному контенту NSFW
Варианты пометки:
- Включите Пометить пост, чтобы активировать пометку, затем выберите тип пометки:
- Добавить пост в очередь на проверку — отправляет пост в очередь на проверку для ручной модерации
- Добавить пост в очередь на проверку и скрыть пост — очередь на проверку + немедленное скрытие поста
- Добавить пост в очередь на проверку и удалить пост — очередь на проверку + мягкое удаление поста
- Добавить пост в очередь на проверку, удалить пост и замолчать пользователя — очередь на проверку + мягкое удаление поста + молчание автора
- Пометить как спам и скрыть пост — помечает пост как спам (автоматически скрывает его)
- Пометить как спам, скрыть пост и замолчать пользователя — пометка как спам + молчание автора
- Включите Скрыть тему, чтобы автоматически скрыть всю тему
Автоматические ответы:
- Установите Ответить пользователю и Ответ (шаблонный ответ), чтобы отправить фиксированное сообщение, объясняющее, почему пост был помечен
- Выберите Агент ответа, чтобы использовать отдельного агента ИИ для генерации динамических ответов (это имеет приоритет над шаблоном ответа)
- Включите Ответить как шепот, чтобы сделать ответ видимым только для сотрудников
Уведомления автора:
- Включите Уведомить автора через ЛС, чтобы отправить личное сообщение автору поста, когда его контент помечен
- Установите пользователя-отправителя ЛС (по умолчанию — система) и при желании предоставьте пользовательский содержимое ЛС
Другие параметры:
- Включите Включить личные сообщения, чтобы также сканировать и проводить триаж личных сообщений
Предостережения
- Помните, что вызовы LLM могут быть дорогостоящими. При применении классификатора внимательно следите за затратами и всегда рассмотрите возможность запуска этого только на небольших подмножествах.
- Хотя более производительные модели, например GPT-4o, дадут лучшие результаты, это может стоить дороже. Однако мы наблюдали снижение затрат со временем, поскольку LML становятся еще лучше и дешевле
Другие варианты использования
Промпт можно настроить для выполнения различных видов обнаружения, таких как раскрытие PII и обнаружение спама. Мы будем рады услышать, как вы используете эту автоматизацию для блага вашего сообщества!


