Эта тема посвящена настройке функции «Токсичность» плагина Discourse AI.
Требуемый уровень доступа: Администратор
Модули «Токсичность» могут автоматически определять уровень токсичности каждого нового сообщения в теме и в чате на вашем экземпляре Discourse. Также можно включить автоматическую пометку контента, превышающего установленный порог.
Результаты классификации сохраняются в базе данных, поэтому вы можете сразу же включить плагин и использовать Data Explorer для формирования отчётов о классификации нового контента в Discourse. В ближайшее время мы добавим несколько стандартных запросов для Data Explorer в состав плагина, чтобы упростить эту задачу.
Настройки
ai_toxicity_enabled: Включает или отключает модуль.
ai_toxicity_inference_service_api_endpoint: URL-адрес, где работает API для модуля токсичности. Если вы используете хостинг от CDCK, это настраивается автоматически. Если вы размещаете Discourse самостоятельно, ознакомьтесь с руководством по самостоятельному размещению.
ai_toxicity_inference_service_api_key: Ключ API для настроенного выше API токсичности. Если вы используете хостинг от CDCK, это настраивается автоматически. Если вы размещаете Discourse самостоятельно, ознакомьтесь с руководством по самостоятельному размещению.
ai_toxicity_inference_service_api_model: Мы предлагаем три различные модели: original, unbiased и multilingual. Рекомендуется использовать модель unbiased вместо original, так как она стремится не переносить предвзятости, заложенные в обучающих данных, в процесс классификации. Для многоязычных сообществ последняя модель поддерживает итальянский, французский, русский, португальский, испанский и турецкий языки.
ai_toxicity_flag_automatically: Автоматически помечать сообщения в темах или чате, если классификация по конкретной категории превышает установленный порог. Доступные категории: toxicity, severe_toxicity, obscene, identity_attack, insult, threat и sexual_explicit. Для каждой категории существует отдельная настройка ai_toxicity_flag_threshold_${category}.
ai_toxicity_groups_bypass: Пользователи, состоящие в указанных группах, не будут подвергаться классификации их сообщений модулем токсичности. По умолчанию сюда входят сотрудники (staff).
Я бы сказал, что чем выше порог, тем более мягким он будет. Низкий порог с большей вероятностью пометит пост как токсичный, поскольку для срабатывания флагов потребуется меньше, тогда как высокий порог потребует больше для их активации.
Низкий порог = легко преодолеть
Высокий порог = сложнее преодолеть
Мы хотим внедрить механизм для выявления попыток коммерческой деятельности на нашем сайте — речь не о токсичности как таковой, но это наносит серьёзный ущерб нашему сообществу.
Может, кто-нибудь поможет настроить это с помощью Google Perspective API? Я бы разместил объявление на торговой площадке, но, думаю, здесь это будет уместнее.
Я знаю, что это было год назад, но, пожалуйста, дайте знать, как прошло внедрение! Я лично заинтересован в этом ^^ Тем не менее, поправьте меня, если я ошибаюсь, @Discourse, но атрибуты, упомянутые вами на этой странице, — это атомарные метрики Perspective, реализованные через Detoxify, так что добавление Perspective сейчас, пожалуй, излишне?
ai_toxicity_flag_automatically: Автоматически помечать посты/сообщения чата, когда классификация для конкретной категории превышает настроенный порог. Доступные категории: toxicity, severe_toxicity, obscene, identity_attack, insult, threat и sexual_explicit. Для каждой из них существует настройка ai_toxicity_flag_threshold_${category}.
В любом случае, Detoxify может быть внедрён сообществом Kaggle. Это отличное место, чтобы найти кого-то для реализации, ведь именно этим и занимается Kaggle
Мы обнаружили, что, хотя это отлично работает, если у вас нулевая терпимость к типичной токсичности на ваших инстансах, как это бывает у более «брендовых» инстансов, для других более ориентированных на сообщество инстансов Discourse модели токсичности были слишком строгими, генерируя слишком много флагов в более либеральных инстансах.
Из-за этого наш текущий план — отказаться от токсичности и перенести эту функцию в наш плагин AI Triage, где мы предоставляем настраиваемый промпт для администраторов, чтобы адаптировать автоматическое обнаружение токсичности к уровням, допустимым на их инстансе.