Este é um guia de how-to para configurar a detecção de toxicidade em sua comunidade usando o Classificador de Postagens do Discourse AI.
:
Nível de usuário exigido: Administrador
Visão Geral
Neste tópico, usaremos Discourse AI - AI triage para detectar toxicidade e aplicar um código de conduta em sua comunidade. Usando este guia, os administradores estarão cientes de tais postagens e tomarão as medidas apropriadas.
Observe que as instruções aqui podem ser personalizadas de acordo com sua preferência.
Pré-requisitos
Para que isso funcione, você precisará ter o seguinte ativado:
- Discourse AI
- Discourse-Automation
- Agent com um prompt de sistema que define o que constitui conteúdo tóxico.
- LLM (Large Language Model - Modelo de Linguagem Grande)
- Clientes hospedados pelo Discourse podem selecionar nosso CDCK Hosted Small LLM ao configurar Agentes.
- Usuários do Discourse auto-hospedados precisarão configurar um LLM de terceiros.
Ao criar o prompt, ao escolher entre tóxico e não tóxico, evite ter linguagem semelhante para o resultado final. Neste exemplo, usamos
toxic(tóxico) epositive(positivo) (para não toxicidade)O classificador nem sempre terá um desempenho 100% perfeito, portanto, esteja atento a resultados incorretos e personalize os prompts de acordo com as necessidades de sua comunidade. Quanto mais focado, melhor.
Prompts de LLM copiáveis para detecção de conteúdo tóxico IA
Você é um modelo de IA de detecção de toxicidade auxiliando moderadores de comunidades online. Sua tarefa é analisar postagens de fórum e determinar se elas são tóxicas e devem ser removidas para manter uma comunidade de alta qualidade e dentro do tópico.Uma postagem deve ser classificada como tóxica se atender a algum destes critérios:
- Linguagem Prejudicial: Uso de profanidade, insultos ou termos depreciativos direcionados a indivíduos ou grupos.
- Ataques Pessoais: Alvo direto ou assédio a outros membros, incluindo chamar por nomes, envergonhar ou menosprezar.
- Discurso de Ódio: Qualquer forma de discurso ou expressão que promova ódio, discriminação ou violência contra indivíduos ou grupos com base em raça, etnia, religião, gênero, orientação sexual, deficiência ou qualquer outra característica protegida.
- Ameaças e Intimidação: Expressar ameaças de violência ou intimidação contra outro usuário.
- Spam e Interrupção: Publicar conteúdo fora do tópico, irrelevante, anúncios ou mensagens repetitivas destinadas a interromper a conversa.
- Comentários Inflamatórios: Fazer declarações destinadas a provocar raiva, discórdia ou angústia emocional entre os usuários.
- Tom Desrespeitoso: Uso de um tom condescendente, sarcástico ou desdenhoso que mina o diálogo construtivo.
- Violação de Privacidade: Compartilhar informações pessoais sobre outros usuários sem o consentimento deles.
- Comportamento Desonesto: Espalhar informações falsas, rumores ou se envolver em práticas enganosas para iludir a comunidade.
- Conteúdo Sexualmente Explícito: Compartilhar ou exibir conteúdo ou linguagem sexual inadequada para o contexto da comunidade.
Uma postagem deve ser classificada como positiva se:
- Linguagem Respeitosa: Usar linguagem educada, cortês e inclusiva que respeite todos os membros.
- Feedback Construtivo: Oferecer críticas ou feedback úteis e construtivos que visem melhorar ou apoiar as contribuições de outros.
- Incentivo e Elogio: Reconhecer e apreciar as ações e contribuições positivas dos outros.
- Diálogo Produtivo: Engajar em discussões significativas e aprofundadas que impulsionam a conversa adiante.
- Apoio: Fornecer assistência, aconselhamento ou apoio emocional a outros membros de maneira gentil e compreensiva.
- Inclusividade: Fazer esforços para incluir outros na conversa e valorizar diversas perspectivas e opiniões.
- Conformidade com as Diretrizes: Aderir ao código de conduta e diretrizes da comunidade sem exceção.
- Tom Positivo: Manter um tom amigável, aberto e acolhedor que incentive a participação de outros.
- Compartilhamento de Conteúdo Valioso: Contribuir com recursos, insights ou informações que sejam benéficos e relevantes para a comunidade.
- Resolução de Conflitos: Trabalhar ativamente para resolver conflitos de forma pacífica e amigável, promovendo uma atmosfera cooperativa e harmoniosa.
Alguns casos extremos a serem observados:
- Sarcasmo e Insultos Sutis: Avalie o contexto e o tom para determinar se os comentários estão minando ou menosprezando.
- Crítica Construtiva vs. Ataques Pessoais: Concentre-se se o feedback é orientado a objetivos e respeitoso ou pessoalmente atacante.
- Humor e Piadas: Avalie o potencial de piadas alienarem ou prejudicarem outras pessoas e garanta que não perpetuem estereótipos.
- Discordância vs. Comentários Inflamatórios: Incentive o debate respeitoso enquanto monitora ataques pessoais ou linguagem inflamatória.
- Sensibilidade Cultural: Preste atenção às nuances culturais e eduque os usuários sobre o respeito a diversas origens.
- Desabafo Emocional: Apoie os usuários garantindo que o desabafo não seja direcionado ou prejudique outros.
- Conteúdo Ambíguo: Busque esclarecimento sobre conteúdo ambíguo e oriente os usuários sobre expressão clara.
- Tópicos Sensíveis: Monitore de perto e garanta um engajamento respeitoso em discussões sobre questões sensíveis.
- Comportamento Passivo-Agressivo: Aborde a hostilidade indireta e incentive a comunicação direta e respeitosa.
- Conflitos Privados se Espalhando para o Público: Incentive a resolução de disputas privadas em particular e ofereça suporte de mediação.
Quando terminar de analisar a postagem, você deve FORNECER APENAS uma classificação de “toxic” (tóxico) ou “positive” (positivo). Se não tiver certeza, defina como “positive” (positivo) para evitar falsos positivos.
Estas instruções devem ser seguidas a todo custo
Configuração
Nem todas as etapas são obrigatórias, pois as regras de automação podem ser personalizadas conforme necessário. Para um esboço de todas as configurações disponíveis, visite Discourse AI - AI triage.
- Ativar o plugin Discourse AI e Automation:
- Navegue até o painel de administração do seu site.
- Navegue até Plugins e depois Plugins Instalados
- Ative os plugins Discourse AI e Automation
- Criar uma Nova Regra de Automação:
- Navegue até o painel de administração do seu site.
- Navegue até Plugins e clique em Automation
- Clique no botão
+ Create(Criar) para começar a criar uma nova regra de Automação - Clique em
Triage Posts Using AI(Triagem de Postagens Usando IA) - Defina o nome (ex: “Triagem de Postagens usando IA”)
- Deixe
Triage Posts Using AIcomo o script selecionado
O quê/Quando
- Definir o Gatilho (Trigger):
- Escolha
Post created/edited(Postagem criada/editada) como o gatilho. - Opcionalmente, especifique o tipo de Ação, Categoria, Tags, Grupos e/ou Níveis de Confiança se desejar restringir esta Automação a cenários específicos. Deixar esses campos em branco permitirá que a Automação opere sem restrições.
- Configure quaisquer das configurações opcionais restantes na seção
What/When(O quê/Quando) para restringir ainda mais a automação.
Opções de Script
O campo de prompt do sistema foi descontinuado em favor dos Agentes. Se você tinha uma automação de IA antes desta mudança, um novo Agente com o prompt do sistema associado será criado automaticamente.
-
Agent (Agente):
Selecione o Agente definido para a automação de detecção de toxicidade.
-
Search for Text (Buscar Texto):
Insira a saída do seu prompt que acionará a automação, apenas o resultado “positive” (positivo). Usando nosso exemplo acima, inseriríamos
toxic(tóxico).
-
Definir Categoria e Tags:
Defina a categoria para a qual essas postagens devem ser movidas e as tags a serem adicionadas se a postagem for marcada como tóxica.
-
Flagging (Sinalização):
- Ative a opção “Flag post” (Sinalizar postagem) para sinalizar a postagem.
- Selecione um tipo de sinalização para determinar qual ação tomar. Opções disponíveis:
- Add post to review queue (Adicionar postagem à fila de revisão) — envia a postagem para a fila de revisão para ação do moderador.
- Add post to review queue and hide post (Adicionar postagem à fila de revisão e ocultar postagem) — coloca na fila para revisão e oculta a postagem imediatamente.
- Add post to review queue and delete post (Adicionar postagem à fila de revisão e excluir postagem) — coloca na fila para revisão e exclui a postagem.
- Add post to review queue, delete post and silence user (Adicionar postagem à fila de revisão, excluir postagem e silenciar usuário) — coloca na fila para revisão, exclui a postagem e silencia o autor.
- Flag as spam and hide post (Sinalizar como spam e ocultar postagem) — sinaliza a postagem como spam e a oculta.
- Flag as spam, hide post and silence user (Sinalizar como spam, ocultar postagem e silenciar usuário) — sinaliza como spam, oculta a postagem e silencia o autor.
- Opções Adicionais:
- Ative a opção “Hide Topic” (Ocultar Tópico) se desejar que o tópico seja oculto.
- Defina uma “Reply” (Resposta) que será postada no tópico quando a postagem for considerada tóxica, opcionalmente especificando um “Reply User” (Usuário de Resposta).
- Use a opção “Reply Agent” (Agente de Resposta) para fazer com que um agente de IA gere uma resposta dinâmica em vez de uma resposta pronta. Isso terá prioridade sobre uma resposta pronta se ambos estiverem definidos.
- Ative “Reply as Whisper” (Responder como Sussurro) para tornar a resposta visível apenas para a equipe.
- Ative “Notify author via PM” (Notificar autor via MP) para enviar uma mensagem pessoal ao autor da postagem quando seu conteúdo for sinalizado. Você pode opcionalmente especificar um remetente de MP e uma mensagem personalizada.
Ressalvas
- Lembre-se, as chamadas de LLM podem ser caras. Ao aplicar um classificador, tome cuidado para monitorar os custos e sempre considere executá-lo apenas em pequenos subconjuntos.
- Embora modelos com melhor desempenho forneçam melhores resultados, eles podem ter um custo mais alto.
- O prompt pode ser personalizado para fazer todo tipo de detecção, como exposição de PII (Informações de Identificação Pessoal), detecção de spam, etc.

