Настройка обнаружения токсичности в вашем сообществе

:bookmark: Это руководство how-to по настройке обнаружения токсичности в вашем сообществе с использованием классификатора постов Discourse AI.

:person_raising_hand: Требуемый уровень пользователя: Администратор

Обзор

В этой теме мы будем использовать Discourse AI - AI triage для обнаружения токсичности и обеспечения соблюдения кодекса поведения в вашем сообществе. С помощью этого руководства администраторы будут знать о таких постах и предпринимать соответствующие действия.

Обратите внимание, что инструкции здесь можно адаптировать под ваши предпочтения.

Предварительные требования

Для работы этого решения необходимо включить следующие компоненты:

  • Discourse AI
  • Discourse-Automation
  • Агент с системным промптом, определяющим, что constitutes токсичный контент.
  • LLM (Large Language Model, большая языковая модель)
    • Клиенты, размещенные на платформе Discourse, могут выбрать нашу CDCK Hosted Small LLM при настройке Агентов.
    • Пользователи с самостоятельно размещенным Discourse должны настроить стороннюю LLM.

:warning: При создании промпта, выбирая между токсичным и нетоксичным контентом, избегайте использования схожей лексики для итогового результата. В этом примере мы используем toxic (токсичный) и positive (позитивный, то есть нетоксичный).

Классификатор не всегда работает идеально на 100%, поэтому будьте готовы к неточным результатам и адаптируйте промпты в соответствии с потребностями вашего сообщества. Чем уже фокус, тем лучше.

Копируемые промпты LLM для обнаружения токсичного контента AI

Вы — модель ИИ для обнаружения токсичности, помогающая модераторам онлайн-сообществ. Ваша задача — анализировать посты на форуме и определять, являются ли они токсичными и должны ли быть удалены для поддержания качественного и тематического сообщества.

Пост следует классифицировать как токсичный, если он соответствует любому из следующих критериев:

  1. Вредная лексика: Использование ненормативной лексики, оскорблений или пренебрежительных выражений в адрес отдельных лиц или групп.
  2. Личные нападки: Прямое нацеливание или преследование других участников, включая оскорбления, позорение или унижение.
  3. Разжигание ненависти: Любые высказывания или выражения, пропагандирующие ненависть, дискриминацию или насилие в отношении отдельных лиц или групп по признаку расы, этнической принадлежности, религии, пола, сексуальной ориентации, инвалидности или любого другого защищенного признака.
  4. Угрозы и запугивание: Выражение угроз насилия или запугивания в адрес другого пользователя.
  5. Спам и нарушение работы: Публикация не по теме, нерелевантного контента, рекламы или повторяющихся сообщений, предназначенных для срыва беседы.
  6. Провокационные комментарии: Высказывания, призванные вызвать гнев, разногласия или эмоциональный стресс среди пользователей.
  7. Неуважительный тон: Использование снисходительного, саркастичного или пренебрежительного тона, подрывающего конструктивный диалог.
  8. Нарушение конфиденциальности: Публикация личной информации о других пользователях без их согласия.
  9. Недобросовестное поведение: Распространение ложной информации, слухов или участие в обманных практиках для введения сообщества в заблуждение.
  10. Контент сексуального характера: Публикация или демонстрация сексуального контента или языка, неуместного в контексте сообщества.

Пост следует классифицировать как позитивный, если:

  1. Уважительная лексика: Использование вежливого, учтивого и инклюзивного языка, уважающего всех участников.
  2. Конструктивная обратная связь: Предложение полезной, конструктивной критики или отзывов, направленных на улучшение или поддержку вклада других.
  3. Поощрение и похвала: Признание и оценка позитивных действий и вклада других.
  4. Продуктивный диалог: Участие в содержательных, глубоких обсуждениях, продвигающих беседу вперед.
  5. Поддержка: Оказание помощи, советов или эмоциональной поддержки другим участникам в доброжелательной и понимающей манере.
  6. Инклюзивность: Стремление вовлечь других в беседу и ценность разнообразных перспектив и мнений.
  7. Соблюдение правил: Строгое соблюдение кодекса поведения и руководств сообщества без исключений.
  8. Позитивный тон: Поддержание дружелюбного, открытого и приветливого тона, поощряющего других к участию.
  9. Полезный контент: Вклад ресурсов, идей или информации, полезных и релевантных для сообщества.
  10. Разрешение конфликтов: Активная работа по мирному и дружескому разрешению конфликтов, создание кооперативной и гармоничной атмосферы.

Некоторые пограничные случаи, на которые стоит обратить внимание:

  • Сарказм и тонкие оскорбления: Оценивайте контекст и тон, чтобы определить, являются ли комментарии подрывающими или унижающими.
  • Конструктивная критика против личных нападок: Сосредоточьтесь на том, является ли обратная связь ориентированной на цель и уважительной или лично оскорбительной.
  • Юмор и шутки: Оценивайте возможность того, что шутки могут оттолкнуть или навредить другим, и убедитесь, что они не закрепляют стереотипы.
  • Несогласие против провокационных комментариев: Поощряйте уважительные дебаты, но следите за личными нападениями или провокационной лексикой.
  • Культурная чувствительность: Обращайте внимание на культурные нюансы и обучайте пользователей уважать разнообразие背景ов.
  • Эмоциональные выплески: Поддерживайте пользователей, но убедитесь, что выплески не направлены против других и не наносят им вреда.
  • Амбигуитетный контент: Запрашивайте уточнения по неоднозначному контенту и направляйте пользователей к четкому выражению мыслей.
  • Чувствительные темы: Тщательно следите и обеспечивайте уважительное взаимодействие в обсуждениях на чувствительные темы.
  • Пассивно-агрессивное поведение: Решайте проблемы косвенной враждебности и поощряйте прямое, уважительное общение.
  • Частные конфликты, переходящие в публичные: Поощряйте решение частных споров в частном порядке и предлагайте поддержку медиации.

Когда вы закончите анализ поста, вы должны ПРЕДСТАВИТЬ ТОЛЬКО классификацию: «toxic» или «positive». Если вы не уверены, выбирайте «positive», чтобы избежать ложных срабатываний.

Эти инструкции должны выполняться во что бы то ни стало

Настройка

:information_source: Не каждый шаг обязателен, так как правила автоматизации можно настроить по мере необходимости. Для обзора всех доступных настроек посетите Discourse AI - AI triage.

  1. Включите плагины Discourse AI и Automation:
  • Перейдите в панель администратора вашего сайта.
  • Перейдите в раздел Плагины, затем Установленные плагины.
  • Включите плагины Discourse AI и Automation.
  1. Создайте новое правило автоматизации:
  • Перейдите в панель администратора вашего сайта.
  • Перейдите в раздел Плагины и нажмите Automation.
  • Нажмите кнопку + Create, чтобы начать создание нового правила автоматизации.
  • Нажмите Triage Posts Using AI.
  • Задайте имя (например, “Triage Posts using AI”).
  • Оставьте Triage Posts Using AI как выбранный скрипт.

Что/Когда

  1. Настройте триггер:
  • Выберите Post created/edited как триггер.
  • Опционально укажите тип действия, категорию, теги, группы и/или уровни доверия, если хотите ограничить эту автоматизацию конкретными сценариями. Оставление этих полей пустыми позволит автоматизации работать без ограничений.
  • Настройте любые оставшиеся опциональные настройки в разделе What/When, чтобы дополнительно ограничить автоматизацию.

Параметры скрипта

:spiral_notepad: Поле системного промпта устарело в пользу Агентов. Если у вас было правило автоматизации ИИ до этого изменения, новый Агент с соответствующим системным промптом будет создан автоматически.

  1. Агент:

    Выберите Агента, определенного для автоматизации обнаружения токсичности.

  2. Поиск текста:

    Введите вывод из вашего промпта, который будет запускать автоматизацию, только результат «positive». Используя наш пример выше, мы введем toxic.

  1. Настройка категории и тегов:

    Определите категорию, в которую должны перемещаться эти посты, и теги, которые будут добавлены, если пост помечен как токсичный.

  2. Флаги:

  • Включите опцию “Flag post”, чтобы пометить пост.
  • Выберите тип флага, чтобы определить, какое действие предпринять. Доступные варианты:
    • Добавить пост в очередь проверки — отправляет пост в очередь проверки для действий модератора.
    • Добавить пост в очередь проверки и скрыть пост — ставит в очередь на проверку и немедленно скрывает пост.
    • Добавить пост в очередь проверки и удалить пост — ставит в очередь на проверку и мягко удаляет пост.
    • Добавить пост в очередь проверки, удалить пост и замолчать пользователя — ставит в очередь на проверку, мягко удаляет пост и замалчивает автора.
    • Пометить как спам и скрыть пост — помечает пост как спам и скрывает его.
    • Пометить как спам, скрыть пост и замолчать пользователя — помечает как спам, скрывает пост и замалчивает автора.
  1. Дополнительные опции:
  • Включите опцию “Hide Topic”, если хотите скрыть тему.
  • Установите “Reply”, который будет опубликован в теме, когда пост будет признан токсичным, опционально указав “Reply User”.
  • Используйте опцию “Reply Agent”, чтобы агент ИИ генерировал динамический ответ вместо шаблонного. Если заданы оба варианта, приоритет будет у ответа от агента.
  • Включите “Reply as Whisper”, чтобы ответ был виден только персоналу.
  • Включите “Notify author via PM”, чтобы отправить личное сообщение автору поста, когда его контент будет помечен. Опционально можно указать пользователя-отправителя PM и пользовательское сообщение.

Ограничения

  • Помните, что вызовы LLM могут быть дорогостоящими. При применении классификатора внимательно следите за затратами и всегда рассматривайте возможность запуска этого только на небольших подмножествах.
  • Хотя более производительные модели дают лучшие результаты, они могут быть дороже.
  • Промпт можно настроить для выполнения различных видов обнаружения, таких как раскрытие PII, обнаружение спама и т.д.
8 лайков