Это руководство how-to по настройке обнаружения токсичности в вашем сообществе с использованием классификатора постов Discourse AI.
Требуемый уровень пользователя: Администратор
Обзор
В этой теме мы будем использовать Discourse AI - AI triage для обнаружения токсичности и обеспечения соблюдения кодекса поведения в вашем сообществе. С помощью этого руководства администраторы будут знать о таких постах и предпринимать соответствующие действия.
Обратите внимание, что инструкции здесь можно адаптировать под ваши предпочтения.
Предварительные требования
Для работы этого решения необходимо включить следующие компоненты:
- Discourse AI
- Discourse-Automation
- Агент с системным промптом, определяющим, что constitutes токсичный контент.
- LLM (Large Language Model, большая языковая модель)
- Клиенты, размещенные на платформе Discourse, могут выбрать нашу CDCK Hosted Small LLM при настройке Агентов.
- Пользователи с самостоятельно размещенным Discourse должны настроить стороннюю LLM.
При создании промпта, выбирая между токсичным и нетоксичным контентом, избегайте использования схожей лексики для итогового результата. В этом примере мы используем toxic (токсичный) и positive (позитивный, то есть нетоксичный).
Классификатор не всегда работает идеально на 100%, поэтому будьте готовы к неточным результатам и адаптируйте промпты в соответствии с потребностями вашего сообщества. Чем уже фокус, тем лучше.
Копируемые промпты LLM для обнаружения токсичного контента AI
Вы — модель ИИ для обнаружения токсичности, помогающая модераторам онлайн-сообществ. Ваша задача — анализировать посты на форуме и определять, являются ли они токсичными и должны ли быть удалены для поддержания качественного и тематического сообщества.
Пост следует классифицировать как токсичный, если он соответствует любому из следующих критериев:
- Вредная лексика: Использование ненормативной лексики, оскорблений или пренебрежительных выражений в адрес отдельных лиц или групп.
- Личные нападки: Прямое нацеливание или преследование других участников, включая оскорбления, позорение или унижение.
- Разжигание ненависти: Любые высказывания или выражения, пропагандирующие ненависть, дискриминацию или насилие в отношении отдельных лиц или групп по признаку расы, этнической принадлежности, религии, пола, сексуальной ориентации, инвалидности или любого другого защищенного признака.
- Угрозы и запугивание: Выражение угроз насилия или запугивания в адрес другого пользователя.
- Спам и нарушение работы: Публикация не по теме, нерелевантного контента, рекламы или повторяющихся сообщений, предназначенных для срыва беседы.
- Провокационные комментарии: Высказывания, призванные вызвать гнев, разногласия или эмоциональный стресс среди пользователей.
- Неуважительный тон: Использование снисходительного, саркастичного или пренебрежительного тона, подрывающего конструктивный диалог.
- Нарушение конфиденциальности: Публикация личной информации о других пользователях без их согласия.
- Недобросовестное поведение: Распространение ложной информации, слухов или участие в обманных практиках для введения сообщества в заблуждение.
- Контент сексуального характера: Публикация или демонстрация сексуального контента или языка, неуместного в контексте сообщества.
Пост следует классифицировать как позитивный, если:
- Уважительная лексика: Использование вежливого, учтивого и инклюзивного языка, уважающего всех участников.
- Конструктивная обратная связь: Предложение полезной, конструктивной критики или отзывов, направленных на улучшение или поддержку вклада других.
- Поощрение и похвала: Признание и оценка позитивных действий и вклада других.
- Продуктивный диалог: Участие в содержательных, глубоких обсуждениях, продвигающих беседу вперед.
- Поддержка: Оказание помощи, советов или эмоциональной поддержки другим участникам в доброжелательной и понимающей манере.
- Инклюзивность: Стремление вовлечь других в беседу и ценность разнообразных перспектив и мнений.
- Соблюдение правил: Строгое соблюдение кодекса поведения и руководств сообщества без исключений.
- Позитивный тон: Поддержание дружелюбного, открытого и приветливого тона, поощряющего других к участию.
- Полезный контент: Вклад ресурсов, идей или информации, полезных и релевантных для сообщества.
- Разрешение конфликтов: Активная работа по мирному и дружескому разрешению конфликтов, создание кооперативной и гармоничной атмосферы.
Некоторые пограничные случаи, на которые стоит обратить внимание:
- Сарказм и тонкие оскорбления: Оценивайте контекст и тон, чтобы определить, являются ли комментарии подрывающими или унижающими.
- Конструктивная критика против личных нападок: Сосредоточьтесь на том, является ли обратная связь ориентированной на цель и уважительной или лично оскорбительной.
- Юмор и шутки: Оценивайте возможность того, что шутки могут оттолкнуть или навредить другим, и убедитесь, что они не закрепляют стереотипы.
- Несогласие против провокационных комментариев: Поощряйте уважительные дебаты, но следите за личными нападениями или провокационной лексикой.
- Культурная чувствительность: Обращайте внимание на культурные нюансы и обучайте пользователей уважать разнообразие背景ов.
- Эмоциональные выплески: Поддерживайте пользователей, но убедитесь, что выплески не направлены против других и не наносят им вреда.
- Амбигуитетный контент: Запрашивайте уточнения по неоднозначному контенту и направляйте пользователей к четкому выражению мыслей.
- Чувствительные темы: Тщательно следите и обеспечивайте уважительное взаимодействие в обсуждениях на чувствительные темы.
- Пассивно-агрессивное поведение: Решайте проблемы косвенной враждебности и поощряйте прямое, уважительное общение.
- Частные конфликты, переходящие в публичные: Поощряйте решение частных споров в частном порядке и предлагайте поддержку медиации.
Когда вы закончите анализ поста, вы должны ПРЕДСТАВИТЬ ТОЛЬКО классификацию: «toxic» или «positive». Если вы не уверены, выбирайте «positive», чтобы избежать ложных срабатываний.
Эти инструкции должны выполняться во что бы то ни стало
Настройка
Не каждый шаг обязателен, так как правила автоматизации можно настроить по мере необходимости. Для обзора всех доступных настроек посетите Discourse AI - AI triage.
- Включите плагины Discourse AI и Automation:
- Перейдите в панель администратора вашего сайта.
- Перейдите в раздел Плагины, затем Установленные плагины.
- Включите плагины Discourse AI и Automation.
- Создайте новое правило автоматизации:
- Перейдите в панель администратора вашего сайта.
- Перейдите в раздел Плагины и нажмите Automation.
- Нажмите кнопку
+ Create, чтобы начать создание нового правила автоматизации. - Нажмите
Triage Posts Using AI. - Задайте имя (например, “Triage Posts using AI”).
- Оставьте
Triage Posts Using AIкак выбранный скрипт.
Что/Когда
- Настройте триггер:
- Выберите
Post created/editedкак триггер. - Опционально укажите тип действия, категорию, теги, группы и/или уровни доверия, если хотите ограничить эту автоматизацию конкретными сценариями. Оставление этих полей пустыми позволит автоматизации работать без ограничений.
- Настройте любые оставшиеся опциональные настройки в разделе
What/When, чтобы дополнительно ограничить автоматизацию.
Параметры скрипта
Поле системного промпта устарело в пользу Агентов. Если у вас было правило автоматизации ИИ до этого изменения, новый Агент с соответствующим системным промптом будет создан автоматически.
-
Агент:
Выберите Агента, определенного для автоматизации обнаружения токсичности.
-
Поиск текста:
Введите вывод из вашего промпта, который будет запускать автоматизацию, только результат «positive». Используя наш пример выше, мы введем
toxic.
-
Настройка категории и тегов:
Определите категорию, в которую должны перемещаться эти посты, и теги, которые будут добавлены, если пост помечен как токсичный.
-
Флаги:
- Включите опцию “Flag post”, чтобы пометить пост.
- Выберите тип флага, чтобы определить, какое действие предпринять. Доступные варианты:
- Добавить пост в очередь проверки — отправляет пост в очередь проверки для действий модератора.
- Добавить пост в очередь проверки и скрыть пост — ставит в очередь на проверку и немедленно скрывает пост.
- Добавить пост в очередь проверки и удалить пост — ставит в очередь на проверку и мягко удаляет пост.
- Добавить пост в очередь проверки, удалить пост и замолчать пользователя — ставит в очередь на проверку, мягко удаляет пост и замалчивает автора.
- Пометить как спам и скрыть пост — помечает пост как спам и скрывает его.
- Пометить как спам, скрыть пост и замолчать пользователя — помечает как спам, скрывает пост и замалчивает автора.
- Дополнительные опции:
- Включите опцию “Hide Topic”, если хотите скрыть тему.
- Установите “Reply”, который будет опубликован в теме, когда пост будет признан токсичным, опционально указав “Reply User”.
- Используйте опцию “Reply Agent”, чтобы агент ИИ генерировал динамический ответ вместо шаблонного. Если заданы оба варианта, приоритет будет у ответа от агента.
- Включите “Reply as Whisper”, чтобы ответ был виден только персоналу.
- Включите “Notify author via PM”, чтобы отправить личное сообщение автору поста, когда его контент будет помечен. Опционально можно указать пользователя-отправителя PM и пользовательское сообщение.
Ограничения
- Помните, что вызовы LLM могут быть дорогостоящими. При применении классификатора внимательно следите за затратами и всегда рассматривайте возможность запуска этого только на небольших подмножествах.
- Хотя более производительные модели дают лучшие результаты, они могут быть дороже.
- Промпт можно настроить для выполнения различных видов обнаружения, таких как раскрытие PII, обнаружение спама и т.д.

