Discourse AI — Токсичность

:bookmark: Эта тема посвящена настройке функции «Токсичность» плагина Discourse AI.

:person_raising_hand: Требуемый уровень доступа: Администратор

Модули «Токсичность» могут автоматически определять уровень токсичности каждого нового сообщения в теме и в чате на вашем экземпляре Discourse. Также можно включить автоматическую пометку контента, превышающего установленный порог.

Результаты классификации сохраняются в базе данных, поэтому вы можете сразу же включить плагин и использовать Data Explorer для формирования отчётов о классификации нового контента в Discourse. В ближайшее время мы добавим несколько стандартных запросов для Data Explorer в состав плагина, чтобы упростить эту задачу.

Настройки

  • ai_toxicity_enabled: Включает или отключает модуль.

  • ai_toxicity_inference_service_api_endpoint: URL-адрес, где работает API для модуля токсичности. Если вы используете хостинг от CDCK, это настраивается автоматически. Если вы размещаете Discourse самостоятельно, ознакомьтесь с руководством по самостоятельному размещению.

  • ai_toxicity_inference_service_api_key: Ключ API для настроенного выше API токсичности. Если вы используете хостинг от CDCK, это настраивается автоматически. Если вы размещаете Discourse самостоятельно, ознакомьтесь с руководством по самостоятельному размещению.

  • ai_toxicity_inference_service_api_model: Мы предлагаем три различные модели: original, unbiased и multilingual. Рекомендуется использовать модель unbiased вместо original, так как она стремится не переносить предвзятости, заложенные в обучающих данных, в процесс классификации. Для многоязычных сообществ последняя модель поддерживает итальянский, французский, русский, португальский, испанский и турецкий языки.

  • ai_toxicity_flag_automatically: Автоматически помечать сообщения в темах или чате, если классификация по конкретной категории превышает установленный порог. Доступные категории: toxicity, severe_toxicity, obscene, identity_attack, insult, threat и sexual_explicit. Для каждой категории существует отдельная настройка ai_toxicity_flag_threshold_${category}.

  • ai_toxicity_groups_bypass: Пользователи, состоящие в указанных группах, не будут подвергаться классификации их сообщений модулем токсичности. По умолчанию сюда входят сотрудники (staff).

Дополнительные ресурсы

10 лайков

Я сейчас немного настраиваю это. Правильно ли я понимаю, что более высокий порог означает более строгие требования, а более низкий — более мягкие?

1 лайк

Я бы сказал, что чем выше порог, тем более мягким он будет. Низкий порог с большей вероятностью пометит пост как токсичный, поскольку для срабатывания флагов потребуется меньше, тогда как высокий порог потребует больше для их активации.
Низкий порог = легко преодолеть
Высокий порог = сложнее преодолеть

2 лайка

Мы хотим внедрить механизм для выявления попыток коммерческой деятельности на нашем сайте — речь не о токсичности как таковой, но это наносит серьёзный ущерб нашему сообществу.

Это близко, но мы ищем не совсем то.

Вы рассматривали этот аспект?

Это регулируется Правилом автоматизации классификатора постов Discourse AI. Дайте знать, как всё получится.

4 лайка

Может, кто-нибудь поможет настроить это с помощью Google Perspective API? Я бы разместил объявление на торговой площадке, но, думаю, здесь это будет уместнее.

Я знаю, что это было год назад, но, пожалуйста, дайте знать, как прошло внедрение! Я лично заинтересован в этом ^^ Тем не менее, поправьте меня, если я ошибаюсь, @Discourse, но атрибуты, упомянутые вами на этой странице, — это атомарные метрики Perspective, реализованные через Detoxify, так что добавление Perspective сейчас, пожалуй, излишне?

  • ai_toxicity_flag_automatically: Автоматически помечать посты/сообщения чата, когда классификация для конкретной категории превышает настроенный порог. Доступные категории: toxicity, severe_toxicity, obscene, identity_attack, insult, threat и sexual_explicit. Для каждой из них существует настройка ai_toxicity_flag_threshold_${category}.

В любом случае, Detoxify может быть внедрён сообществом Kaggle. Это отличное место, чтобы найти кого-то для реализации, ведь именно этим и занимается Kaggle :slight_smile:

2 лайка

Мы интегрировали модели GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. · GitHub для автоматической классификации токсичности постов и автоматического флага при превышении настраиваемого порога.

Мы обнаружили, что, хотя это отлично работает, если у вас нулевая терпимость к типичной токсичности на ваших инстансах, как это бывает у более «брендовых» инстансов, для других более ориентированных на сообщество инстансов Discourse модели токсичности были слишком строгими, генерируя слишком много флагов в более либеральных инстансах.

Из-за этого наш текущий план — отказаться от токсичности и перенести эту функцию в наш плагин AI Triage, где мы предоставляем настраиваемый промпт для администраторов, чтобы адаптировать автоматическое обнаружение токсичности к уровням, допустимым на их инстансе.

Мы также планируем предложить нашим клиентам размещенную модель LLM для модерации, подобную https://ai.google.dev/gemma/docs/shieldgemma или [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, которая показала очень хорошие результаты в наших внутренних оценках на том же наборе данных, что и в оригинальном конкурсе Jigsaw Kaggle, породившем Detoxify.

4 лайка