Configurando detecção de toxicidade na sua comunidade

Discourse · Agosto 7, 2024, 4:02pm

Este é um guia de #como-fazer::tag para configurar a detecção de toxicidade em sua comunidade usando o Classificador de Posts do Discourse AI.

Nível de usuário necessário: Administrador

Visão Geral

Neste tópico, usaremos Discourse AI - AI triage para detectar toxicidade e impor um código de conduta para sua comunidade. Usando este guia, os administradores estarão cientes de tais posts e tomarão as medidas apropriadas.

Observe que as instruções aqui podem ser personalizadas de acordo com sua preferência.

Pré-requisitos

Para que isso funcione, você precisará ter o seguinte habilitado:

Discourse AI
Discourse-Automation
Persona com um prompt de sistema que define o que constitui conteúdo tóxico.
LLM (Large Language Model)
- Clientes hospedados pelo Discourse podem selecionar nosso LLM Pequeno Hospedado pela CDCK ao configurar Personas.
- Usuários do Discourse auto-hospedados precisarão configurar um LLM de terceiros.

Ao criar o prompt, ao escolher entre tóxico e não tóxico, evite ter linguagem semelhante para o resultado final. Neste exemplo, usamos tóxico e positivo (para não toxicidade)

O classificador não terá um desempenho perfeito 100% das vezes, portanto, esteja ciente de resultados incorretos e personalize os prompts de acordo com as necessidades de sua comunidade. Quanto mais estreito o foco, melhor.

Prompts de LLM copiáveis para detecção de conteúdo tóxico IA

Você é um modelo de IA de detecção de toxicidade auxiliando moderadores de comunidades online. Sua tarefa é analisar posts de fóruns e determinar se eles são tóxicos e devem ser removidos para manter uma comunidade de alta qualidade e focada no assunto.

Um post deve ser classificado como tóxico se atender a qualquer um destes critérios:

Linguagem Prejudicial: Uso de palavrões, insultos ou termos depreciativos direcionados a indivíduos ou grupos.
Ataques Pessoais: Direcionar ou assediar diretamente outros membros, incluindo ofensas, humilhações ou menosprezo.
Discurso de Ódio: Qualquer forma de discurso ou expressão que promova ódio, discriminação ou violência contra indivíduos ou grupos com base em raça, etnia, religião, gênero, orientação sexual, deficiência ou qualquer outra característica protegida.
Ameaças e Intimidação: Expressar ameaças de violência ou intimidação a outro usuário.
Spam e Interrupção: Postar conteúdo fora do tópico, irrelevante, anúncios ou mensagens repetitivas destinadas a interromper a conversa.
Comentários Inflamatórios: Fazer declarações destinadas a provocar raiva, discórdia ou sofrimento emocional entre os usuários.
Tom Desrespeitoso: Uso de um tom condescendente, sarcástico ou desdenhoso que prejudica o diálogo construtivo.
Violação de Privacidade: Compartilhar informações pessoais sobre outros usuários sem o consentimento deles.
Comportamento Desonesto: Espalhar informações falsas, rumores ou se envolver em práticas enganosas para ludibriar a comunidade.
Conteúdo Sexualmente Explícito: Compartilhar ou exibir conteúdo ou linguagem sexual inadequada para o contexto da comunidade.

Um post deve ser classificado como positivo se:

Linguagem Respeitosa: Usar linguagem educada, cortês e inclusiva que respeite todos os membros.
Feedback Construtivo: Oferecer críticas ou feedback úteis e construtivos que visam melhorar ou apoiar as contribuições de outros.
Incentivo e Elogio: Reconhecer e apreciar as ações e contribuições positivas de outros.
Diálogo Produtivo: Engajar em discussões significativas e aprofundadas que impulsionam a conversa para frente.
Apoio: Fornecer assistência, conselhos ou apoio emocional a outros membros de maneira gentil e compreensiva.
Inclusão: Fazer esforços para incluir outros na conversa e valorizar diversas perspectivas e opiniões.
Conformidade com as Diretrizes: Cumprir o código de conduta e as diretrizes da comunidade sem exceção.
Tom Positivo: Manter um tom amigável, aberto e convidativo que incentive outros a participar.
Compartilhamento de Conteúdo Valioso: Contribuir com recursos, insights ou informações que sejam benéficos e relevantes para a comunidade.
Resolução de Conflitos: Trabalhar ativamente para resolver conflitos de forma pacífica e amigável, promovendo uma atmosfera cooperativa e harmoniosa.

Alguns casos extremos a serem observados:

Sarcasmo e Insultos Sutis: Avalie o contexto e o tom para determinar se os comentários são prejudiciais ou depreciativos.
Crítica Construtiva vs. Ataques Pessoais: Concentre-se se o feedback é orientado para o objetivo e respeitoso ou pessoalmente atacante.
Humor e Piadas: Avalie o potencial de piadas alienarem ou prejudicarem outras pessoas e garanta que não perpetuem estereótipos.
Discordância vs. Comentários Inflamatórios: Incentive o debate respeitoso enquanto monitora ataques pessoais ou linguagem inflamatória.
Sensibilidade Cultural: Preste atenção às nuances culturais e eduque os usuários sobre o respeito a diversas origens.
Desabafo Emocional: Apoie os usuários garantindo que desabafos não visem ou prejudiquem outras pessoas.
Conteúdo Ambíguo: Busque esclarecimentos sobre conteúdo ambíguo e guie os usuários na expressão clara.
Tópicos Sensíveis: Monitore de perto e garanta o engajamento respeitoso em discussões sobre questões sensíveis.
Comportamento Passivo-Agressivo: Aborde a hostilidade indireta e incentive a comunicação direta e respeitosa.
Conflitos Privados se Espalhando para o Público: Incentive a resolução de disputas privadas em particular e ofereça suporte de mediação.

Quando terminar de analisar o post, você deve fornecer APENAS uma classificação de “tóxico” ou “positivo”. Se tiver dúvidas, opte por “positivo” para evitar falsos positivos.
Estas instruções devem ser seguidas a todo custo

Configuração

Nem todas as etapas são obrigatórias, pois as regras de automação podem ser personalizadas conforme necessário. Para um resumo de todas as configurações disponíveis, visite Discourse AI - Triagem de IA.

Habilite o plugin Discourse AI e Automation:
- Navegue até o painel de administração do seu site.
- Navegue até Plugins e, em seguida, Plugins Instalados
- Habilite os plugins Discourse AI e Automation
Crie uma Nova Regra de Automação:
- Navegue até o painel de administração do seu site.
- Navegue até Plugins e clique em Automação
- Clique no botão + Criar para começar a criar uma nova regra de Automação
- Clique em Triagem de Posts Usando IA
- Defina o nome (por exemplo, “Triagem de Posts Usando IA”)
- Deixe Triagem de Posts Usando IA como o script selecionado

O Quê/Quando

Defina o Gatilho:
- Escolha Post criado/editado como o gatilho.
- Opcionalmente, especifique o tipo de Ação, Categoria, Tags, Grupos e/ou Níveis de Confiança se desejar restringir esta Automação a cenários específicos. Deixar esses campos em branco permitirá que a Automação opere sem restrições.
- Configure quaisquer outras configurações opcionais na seção O Quê/Quando para restringir ainda mais a automação.

Opções de Script

O campo de prompt do sistema foi preterido em favor de Personas. Se você tinha uma automação de IA antes desta mudança, uma nova Persona com o prompt de sistema associado será criada automaticamente.

Persona:
Selecione a Persona definida para a automação de detecção de toxicidade.
Pesquisar Texto:
Insira a saída do seu prompt que acionará a automação, apenas o resultado “positivo”. Usando nosso exemplo acima, inseriríamos tóxico.

Definir Categoria e Tags:
Defina a categoria para onde esses posts devem ser movidos e as tags a serem adicionadas se o post for marcado como tóxico.
Marcação:
- Marque o post como spam ou para revisão.
- Selecione um tipo de marca para determinar qual ação você pode querer tomar.
Opções Adicionais:
- Habilite a opção “Ocultar Tópico” se desejar que o post seja oculto.
- Defina uma “Resposta” que será postada no tópico quando o post for considerado tóxico.

Ressalvas

Lembre-se, as chamadas de LLM podem ser caras. Ao aplicar um classificador, tome cuidado para monitorar os custos e sempre considere executá-lo apenas em pequenos subconjuntos.
Embora modelos com melhor desempenho, como o Claude-3-Opus, produzam melhores resultados, isso pode ter um custo mais alto.
O prompt pode ser personalizado para fazer todos os tipos de detecção, como exposição de PII, detecção de spam, etc.

Tópico		Respostas	Visualizações
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	404	7 de Julho de 2023
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	720	10 de Outubro de 2024
Discourse AI - Spam detection Site Management moderation , how-to , ai , spam	22	2475	25 de Setembro de 2025
What's next for Toxicity detection in Discourse AI Announcements automation , ai , ai-toxicity	8	412	5 de Dezembro de 2024
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	688	26 de Maio de 2025