Discourse AI - Toxidade

Discourse · Abril 24, 2023, 7:39pm

Este tópico cobre a configuração do recurso de Toxicidade do plugin Discourse AI.

Nível de usuário necessário: Administrador

Os módulos de Toxicidade podem classificar automaticamente o nível de toxicidade de cada nova postagem e mensagem de chat em sua instância do Discourse. Você também pode habilitar a marcação automática de conteúdo que ultrapassa um limite.

As classificações são armazenadas no banco de dados, portanto, você pode habilitar o plugin e usar o Data Explorer para relatórios da classificação que ocorre para novo conteúdo no Discourse imediatamente. Em breve, enviaremos algumas consultas padrão do Data Explorer com o plugin para facilitar isso.

Configurações

ai_toxicity_enabled: Habilita ou desabilita o módulo

ai_toxicity_inference_service_api_endpoint: URL onde a API está em execução para o módulo de toxicidade. Se você estiver usando a hospedagem CDCK, isso é tratado automaticamente para você. Se você estiver auto-hospedando, consulte o guia de auto-hospedagem.

ai_toxicity_inference_service_api_key: Chave de API para a API de toxicidade configurada acima. Se você estiver usando a hospedagem CDCK, isso é tratado automaticamente para você. Se você estiver auto-hospedando, consulte o guia de auto-hospedagem.

ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: Oferecemos três modelos diferentes: original, unbiased e multilingual. unbiased é recomendado sobre original porque tentará não transmitir vieses introduzidos pelo material de treinamento para a classificação. Para comunidades multilíngues, o último modelo suporta italiano, francês, russo, português, espanhol e turco.

ai_toxicity_flag_automatically: Marca automaticamente postagens/mensagens de chat quando a classificação para uma categoria específica ultrapassa o limite configurado. As categorias disponíveis são toxicity, severe_toxicity, obscene, identity_attack, insult, threat e sexual_explicit. Existe uma configuração ai_toxicity_flag_threshold_${category} para cada uma.

ai_toxicity_groups_bypass: Usuários nesses grupos não terão suas postagens classificadas pelo módulo de toxicidade. Por padrão, inclui usuários da equipe.

Recursos adicionais

Discourse AI

Install plugins on a self-hosted site

Hifihedgehog · Setembro 11, 2023, 11:18pm

Ajustando isso agora, estou correto em assumir que um limite mais alto é mais rigoroso e um mais baixo é mais flexível?

JimPas · Setembro 12, 2023, 5:08am

Eu diria que quanto maior o limite, mais tolerante ele seria. Um limite mais baixo seria mais propenso a sinalizar uma postagem como tóxica, pois seria necessário menos para acionar um sinalizador, portanto, um limite mais alto exigiria mais para acionar um sinalizador.
Limite baixo = fácil de cruzar
Limite alto = mais difícil de cruzar

nathank · Novembro 23, 2023, 7:45am

Quero ter um mecanismo para capturar tentativas de atividade comercial em nosso site - não toxicidade em si, mas algo muito prejudicial à nossa comunidade.

Isso está próximo, mas não é exatamente o que nos interessa.

Você considerou essa dimensão?

Falco · Novembro 23, 2023, 12:00pm

Isso é coberto por Regra de automação do classificador de posts de IA do Discourse. Me diga como vai.

Mr.X_Mr.X · Abril 17, 2024, 2:09am

Alguém pode me ajudar a configurá-lo com a API Google Perspective? Eu colocaria um anúncio no mercado, mas acho que aqui é mais apropriado.

Samantha_Venia_Logan · Agosto 26, 2024, 5:46am

Sei que isso foi há um ano, mas por favor, me diga como essa implementação correu! Estou pessoalmente interessado nisso ^^ Dito isso, por favor, corrija-me se estiver errado @Discourse, mas os atributos que você menciona nesta página SÃO as métricas atômicas do Perspective, como implementado através do Detoxify, então adicionar o Perspective é um pouco redundante, certo?

ai_toxicity_flag_automatically: Marca automaticamente posts/mensagens de chat quando a classificação para uma categoria específica ultrapassa o limite configurado. As categorias disponíveis são toxicity, severe_toxicity, obscene, identity_attack, insult, threat e sexual_explicit. Existe uma configuração ai_toxicity_flag_threshold_${category} para cada uma delas.

Independentemente disso, o Detoxify pode ser implementado pela comunidade Kaggle. Esse é um ótimo lugar para encontrar alguém para implementá-lo porque é exatamente o que o Kaggle faz

Falco · Agosto 26, 2024, 7:21pm

Integramos os modelos GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. para lidar com a classificação automática de toxicidade e realizar o sinalização automática quando acima de um limite configurável.

O que descobrimos é que, embora funcione muito bem se você tiver tolerância zero para toxicidade típica em suas instâncias, como são as instâncias mais “de marca”, para outras instâncias do Discourse mais orientadas à comunidade, os modelos de toxicidade eram muito rigorosos, gerando muitas sinalizações em instâncias mais flexíveis.

Por causa disso, nosso plano atual é Descontinuar a Toxicidade e mover este recurso para nosso plugin AI Triage, onde fornecemos um prompt personalizável para os administradores adaptarem sua detecção automática de toxicidade aos níveis permitidos em sua instância.

Também planejamos oferecer aos nossos clientes um LLM de moderação hospedado, como https://ai.google.dev/gemma/docs/shieldgemma ou [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, que teve um desempenho muito bom em nossas avaliações internas contra o mesmo conjunto de dados usado na competição original Jigsaw Kaggle que gerou o Detoxify.

Tópico		Respostas	Visualizações
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	855	7 de Agosto de 2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	403	7 de Julho de 2023
Discourse Google Perspective API Plugin official , perspective-api	2	20972	10 de Agosto de 2024
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	708	10 de Outubro de 2024
AI flagging too sensitive Support ai , ai-toxicity	2	577	31 de Março de 2024

Discourse AI - Toxidade

Configurações

Recursos adicionais

Tópicos relacionados