Discourse AI — Токсичность

Discourse · 24.Апрель.2023 19:39:50

Эта тема посвящена настройке функции «Токсичность» плагина Discourse AI.

Требуемый уровень доступа: Администратор

Модули «Токсичность» могут автоматически определять уровень токсичности каждого нового сообщения в теме и в чате на вашем экземпляре Discourse. Также можно включить автоматическую пометку контента, превышающего установленный порог.

Результаты классификации сохраняются в базе данных, поэтому вы можете сразу же включить плагин и использовать Data Explorer для формирования отчётов о классификации нового контента в Discourse. В ближайшее время мы добавим несколько стандартных запросов для Data Explorer в состав плагина, чтобы упростить эту задачу.

Настройки

ai_toxicity_enabled: Включает или отключает модуль.
ai_toxicity_inference_service_api_endpoint: URL-адрес, где работает API для модуля токсичности. Если вы используете хостинг от CDCK, это настраивается автоматически. Если вы размещаете Discourse самостоятельно, ознакомьтесь с руководством по самостоятельному размещению.
ai_toxicity_inference_service_api_key: Ключ API для настроенного выше API токсичности. Если вы используете хостинг от CDCK, это настраивается автоматически. Если вы размещаете Discourse самостоятельно, ознакомьтесь с руководством по самостоятельному размещению.
ai_toxicity_inference_service_api_model: Мы предлагаем три различные модели: original, unbiased и multilingual. Рекомендуется использовать модель unbiased вместо original, так как она стремится не переносить предвзятости, заложенные в обучающих данных, в процесс классификации. Для многоязычных сообществ последняя модель поддерживает итальянский, французский, русский, португальский, испанский и турецкий языки.
ai_toxicity_flag_automatically: Автоматически помечать сообщения в темах или чате, если классификация по конкретной категории превышает установленный порог. Доступные категории: toxicity, severe_toxicity, obscene, identity_attack, insult, threat и sexual_explicit. Для каждой категории существует отдельная настройка ai_toxicity_flag_threshold_${category}.
ai_toxicity_groups_bypass: Пользователи, состоящие в указанных группах, не будут подвергаться классификации их сообщений модулем токсичности. По умолчанию сюда входят сотрудники (staff).

Дополнительные ресурсы

Hifihedgehog · 11.Сентябрь.2023 23:18:43

Я сейчас немного настраиваю это. Правильно ли я понимаю, что более высокий порог означает более строгие требования, а более низкий — более мягкие?

JimPas · 12.Сентябрь.2023 05:08:44

Я бы сказал, что чем выше порог, тем более мягким он будет. Низкий порог с большей вероятностью пометит пост как токсичный, поскольку для срабатывания флагов потребуется меньше, тогда как высокий порог потребует больше для их активации.
Низкий порог = легко преодолеть
Высокий порог = сложнее преодолеть

nathank · 23.Ноябрь.2023 07:45:44

Мы хотим внедрить механизм для выявления попыток коммерческой деятельности на нашем сайте — речь не о токсичности как таковой, но это наносит серьёзный ущерб нашему сообществу.

Это близко, но мы ищем не совсем то.

Вы рассматривали этот аспект?

Falco · 23.Ноябрь.2023 12:00:12

Это регулируется Правилом автоматизации классификатора постов Discourse AI. Дайте знать, как всё получится.

Mr.X_Mr.X · 17.Апрель.2024 02:09:25

Может, кто-нибудь поможет настроить это с помощью Google Perspective API? Я бы разместил объявление на торговой площадке, но, думаю, здесь это будет уместнее.

Samantha_Venia_Logan · 26.Август.2024 05:46:42

Я знаю, что это было год назад, но, пожалуйста, дайте знать, как прошло внедрение! Я лично заинтересован в этом ^^ Тем не менее, поправьте меня, если я ошибаюсь, @Discourse, но атрибуты, упомянутые вами на этой странице, — это атомарные метрики Perspective, реализованные через Detoxify, так что добавление Perspective сейчас, пожалуй, излишне?

ai_toxicity_flag_automatically: Автоматически помечать посты/сообщения чата, когда классификация для конкретной категории превышает настроенный порог. Доступные категории: toxicity, severe_toxicity, obscene, identity_attack, insult, threat и sexual_explicit. Для каждой из них существует настройка ai_toxicity_flag_threshold_${category}.

В любом случае, Detoxify может быть внедрён сообществом Kaggle. Это отличное место, чтобы найти кого-то для реализации, ведь именно этим и занимается Kaggle

Falco · 26.Август.2024 19:21:48

Мы интегрировали модели GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. · GitHub для автоматической классификации токсичности постов и автоматического флага при превышении настраиваемого порога.

Мы обнаружили, что, хотя это отлично работает, если у вас нулевая терпимость к типичной токсичности на ваших инстансах, как это бывает у более «брендовых» инстансов, для других более ориентированных на сообщество инстансов Discourse модели токсичности были слишком строгими, генерируя слишком много флагов в более либеральных инстансах.

Из-за этого наш текущий план — отказаться от токсичности и перенести эту функцию в наш плагин AI Triage, где мы предоставляем настраиваемый промпт для администраторов, чтобы адаптировать автоматическое обнаружение токсичности к уровням, допустимым на их инстансе.

Мы также планируем предложить нашим клиентам размещенную модель LLM для модерации, подобную https://ai.google.dev/gemma/docs/shieldgemma или [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, которая показала очень хорошие результаты в наших внутренних оценках на том же наборе данных, что и в оригинальном конкурсе Jigsaw Kaggle, породившем Detoxify.

Тема		Ответов	Просм.
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	1155	07.08.2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	2	482	07.07.2023
Discourse Google Perspective API Plugin perspective-api	8	21299	12.01.2026
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	1374	10.10.2024
AI flagging too sensitive Support ai , ai-toxicity	2	667	31.03.2024

Discourse AI — Токсичность

Настройки

Дополнительные ресурсы

Связанные темы