Настройка обнаружения NSFW-контента в вашем сообществе

Saif · 10.Октябрь.2024 04:26:21

Это руководство по настройке обнаружения контента NSFW в вашем сообществе с использованием автоматизации Discourse AI для выявления и модерации неподходящих изображений и текста.

Требуемый уровень пользователя: Администратор

Настройка обнаружения NSFW в вашем сообществе

Автоматически обнаруживайте и модерируйте контент NSFW (Not Safe for Work — не предназначенный для просмотра на работе) в вашем сообществе Discourse с помощью автоматизации на базе ИИ. Это руководство поможет вам настроить автоматическое обнаружение как неподходящих изображений, так и текстового контента, что позволит поддерживать стандарты сообщества с минимальным ручным вмешательством.

Краткое описание

Эта документация описывает настройку автоматизации Discourse AI Триаж постов с помощью ИИ для:

Обнаружения NSFW-изображений с использованием моделей ИИ с поддержкой зрения
Выявления неподходящего текстового контента и языка
Автоматической пометки, категоризации и модерации проблемных постов
Настройки пользовательских ответов и действий модерации

Автоматизация использует большие языковые модели (LLM) для анализа содержания постов и выполняет заранее определенные действия при обнаружении материалов NSFW.

Предварительные требования

Перед настройкой обнаружения NSFW убедитесь, что у вас включены следующие компоненты:

Плагин Discourse AI — основной плагин функциональности ИИ
Плагин Discourse Automation: необходим для создания автоматических правил
Агент: Агент с системным промптом, определяющим, что считается контентом NSFW. Используйте различный язык для положительных и отрицательных классификаций, чтобы избежать путаницы.
LLM с поддержкой зрения: требуется только для обнаружения изображений; стандартные LLM работают для обнаружения только текста. Убедитесь, что для модели LLM и Агента включена опция “Поддержка зрения”.
- Клиенты, использующие хостинг Discourse, могут выбрать наш CDCK Hosted Small LLM при настройке Агентов.
- Пользователи с самостоятельным хостингом Discourse должны настроить стороннюю LLM.

Примеры промптов:

Для обнаружения изображений:

Вы — бот, специализирующийся на классификации изображений. Отвечайте только одним из двух вариантов: NSFW или SAFE, и больше ничего. NSFW — это порнография или кровавые сцены, а SAFE — всё остальное. В случае сомнений отвечайте SAFE.

Для обнаружения текста:

Вы — передовая система модерации контента на базе ИИ, предназначенная для проведения триажа пользовательских постов. Ваша задача — обнаруживать и помечать любой контент, содержащий нецензурную лексику, неподходящие термины или контент NSFW (Not Safe for Work — не предназначенный для просмотра на работе).

Контент NSFW включает откровенный сексуальный контент, насилие, язык вражды, графическую лексику, дискриминацию, упоминания самоповреждения или незаконную деятельность.

Ответьте ровно одним словом:
* "SAFE": Пост уместен и не содержит плохого или NSFW-контента
* "NSFW": Если обнаружен плохой, неподходящий или NSFW-контент

Будьте внимательны к контексту и избегайте ложных срабатываний.

Шаги конфигурации

Включение необходимых плагинов

Перейдите в административную панель вашего сайта
Перейдите в раздел Плагины > Установленные плагины
Включите оба плагина: Discourse AI и Automation

Создание правила автоматизации

В административной панели перейдите в раздел Плагины > Automation
Нажмите + Создать, чтобы начать создание нового правила автоматизации
Выберите Триаж постов с помощью ИИ
Задайте описательное имя (например, “Обнаружение контента NSFW”)

Настройка триггеров и ограничений

Установка триггера:

Выберите Пост создан/отредактирован в качестве триггера для сканирования новых или отредактированных постов
В качестве альтернативы выберите Застойная тема для проведения триажа тем, которые не получали ответов в течение указанного времени
При желании укажите тип действия, категории, теги, группы, уровни доверия или особенности постов для ограничения области действия автоматизации
Оставьте поля пустыми, чтобы применить автоматизацию ко всему сайту

Дополнительные ограничения (триггер “Пост создан/отредактирован”):
Настройте дополнительные параметры для дальнейшего ограничения области действия автоматизации:

Только первый пост или Только исходный пост, чтобы нацелиться только на новые темы
Только первая тема, чтобы нацелиться только на первую тему пользователя
Особенности постов для ограничения постами с изображениями, ссылками, кодом или вложениями — полезно для обнаружения NSFW на основе изображений
Ограниченный архетип для ограничения обычными темами, публичными темами или личными сообщениями

Настройка классификации ИИ

Поле системного промпта устарело и заменено Агентами. Если у вас была автоматизация ИИ до этого изменения, новый Агент с соответствующим системным промптом будет создан автоматически.

Агент:
Выберите Агента, определенный для автоматизации обнаружения NSFW.

Поиск текста:
Введите точный вывод из вашего промпта, который запускает действия автоматизации. Используя приведенные выше примеры, введите NSFW.

Дополнительные параметры:

Макс. токенов поста: ограничьте количество токенов поста, отправляемых в LLM
Макс. выходных токенов: установите верхний предел количества токенов, которые может генерировать модель
Стоп-последовательности: укажите модели остановиться при encountering определенных значений

Настройка действий модерации

Категоризация и тегирование:

Определите категорию, в которую должны перемещаться помеченные посты
Укажите теги, которые будут добавляться к выявленному контенту NSFW

Варианты пометки:

Включите Пометить пост, чтобы активировать пометку, затем выберите тип пометки:
- Добавить пост в очередь на проверку — отправляет пост в очередь на проверку для ручной модерации
- Добавить пост в очередь на проверку и скрыть пост — очередь на проверку + немедленное скрытие поста
- Добавить пост в очередь на проверку и удалить пост — очередь на проверку + мягкое удаление поста
- Добавить пост в очередь на проверку, удалить пост и замолчать пользователя — очередь на проверку + мягкое удаление поста + молчание автора
- Пометить как спам и скрыть пост — помечает пост как спам (автоматически скрывает его)
- Пометить как спам, скрыть пост и замолчать пользователя — пометка как спам + молчание автора
Включите Скрыть тему, чтобы автоматически скрыть всю тему

Автоматические ответы:

Установите Ответить пользователю и Ответ (шаблонный ответ), чтобы отправить фиксированное сообщение, объясняющее, почему пост был помечен
Выберите Агент ответа, чтобы использовать отдельного агента ИИ для генерации динамических ответов (это имеет приоритет над шаблоном ответа)
Включите Ответить как шепот, чтобы сделать ответ видимым только для сотрудников

Уведомления автора:

Включите Уведомить автора через ЛС, чтобы отправить личное сообщение автору поста, когда его контент помечен
Установите пользователя-отправителя ЛС (по умолчанию — система) и при желании предоставьте пользовательский содержимое ЛС

Другие параметры:

Включите Включить личные сообщения, чтобы также сканировать и проводить триаж личных сообщений

Предостережения

Помните, что вызовы LLM могут быть дорогостоящими. При применении классификатора внимательно следите за затратами и всегда рассмотрите возможность запуска этого только на небольших подмножествах.
Хотя более производительные модели, например GPT-4o, дадут лучшие результаты, это может стоить дороже. Однако мы наблюдали снижение затрат со временем, поскольку LML становятся еще лучше и дешевле

Другие варианты использования

Промпт можно настроить для выполнения различных видов обнаружения, таких как раскрытие PII и обнаружение спама. Мы будем рады услышать, как вы используете эту автоматизацию для блага вашего сообщества!

sam · 02.Март.2026 04:06:13

Пост был разделён на новую тему: LLM и задержка обнаружения контента NSFW

Тема		Ответов	Просм.
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	465	07.07.2023
Setting up toxicity detection in your community Site Management automation , ai , how-to , moderation	0	1085	07.08.2024
NSFW image blurring in chat Support chat , ai	5	611	26.09.2024
Discourse AI - Spam detection Site Management moderation , spam , how-to , ai	32	3966	10.03.2026
AI integration for moderation Support	2	132	25.01.2026