Este é um guia para configurar a detecção de conteúdo NSFW em sua comunidade usando a automação do Discourse AI para identificar e moderar imagens e textos inadequados.
Nível de usuário necessário: Administrador
Configurando a detecção de NSFW em sua comunidade
Detecte e modere automaticamente conteúdo NSFW (Not Safe for Work - Não Seguro para o Trabalho) em sua comunidade Discourse usando automação alimentada por IA. Este guia ajudará você a configurar a detecção automatizada para conteúdo de imagem e texto inadequados, permitindo que você mantenha os padrões da comunidade com intervenção manual mínima.
Resumo
Esta documentação abrange a configuração da automação do Classificador de Posts do Discourse AI para:
- Detectar imagens NSFW usando modelos de IA com capacidade de visão
- Identificar conteúdo de texto e linguagem inadequados
- Marcar, categorizar e moderar automaticamente posts problemáticos
- Configurar respostas personalizadas e ações de moderação
A automação usa modelos de linguagem grandes (LLMs) para analisar o conteúdo dos posts e toma ações predefinidas quando material NSFW é detectado.
Pré-requisitos
Antes de configurar a detecção de NSFW, certifique-se de ter o seguinte habilitado:
- Plugin Discourse AI - O plugin principal de funcionalidade de IA
- Plugin Discourse Automation: Necessário para criar regras automatizadas
- Persona: Persona com um prompt de sistema que define o que constitui conteúdo NSFW. Use linguagem distinta para classificações positivas e negativas para evitar confusão.
- LLM com capacidade de visão: Necessário apenas para detecção de imagem; LLMs padrão funcionam para detecção apenas de texto.
- Clientes hospedados pelo Discourse podem selecionar nosso LLM Pequeno Hospedado pelo CDCK ao configurar Personas.
- Usuários do Discourse auto-hospedados precisarão configurar um LLM de terceiros.
Exemplos de prompts:
Para detecção de imagem:
Você é um bot especializado em classificação de imagens. Responda apenas com NSFW ou SAFE, e nada mais. NSFW é pornografia ou gore, e SAFE é todo o resto. Em caso de dúvida, responda com SAFE.
Para detecção de texto:
Você é um sistema avançado de moderação de conteúdo de IA projetado para triar posts gerados por usuários. Sua tarefa é detectar e sinalizar qualquer conteúdo que inclua linguagem inadequada, termos impróprios ou conteúdo NSFW (Not Safe for Work).
Conteúdo NSFW inclui conteúdo sexual explícito, violência, discurso de ódio, linguagem gráfica, discriminação, referências a automutilação ou atividade ilegal.
Responda com exatamente uma palavra:
* "SAFE": O post é apropriado e não contém conteúdo inadequado ou NSFW
* "NSFW": Se conteúdo inadequado, impróprio ou NSFW for detectado
Seja consciente do contexto e evite falsos positivos.
Etapas de configuração
Habilitar plugins necessários
- Navegue até o painel de administração do seu site
- Vá para Plugins > Plugins Instalados
- Habilite os plugins Discourse AI e Automation
Criar regra de automação
- No painel de administração, navegue até Plugins > Automation
- Clique em + Criar para começar a criar uma nova regra de automação
- Selecione Triar Posts Usando IA
- Defina um nome descritivo (por exemplo, “Detecção de Conteúdo NSFW”)
Configurar gatilhos e restrições
Definir o gatilho:
- Escolha Post criado/editado como o gatilho
- Opcionalmente, especifique o tipo de Ação, Categoria, Tags, Grupos ou Níveis de Confiança para restringir o escopo da automação
- Deixe os campos em branco para aplicar a automação em todo o site
Restrições opcionais:
Configure configurações adicionais na seção O quê/Quando para limitar ainda mais o escopo da automação, como direcionar apenas os primeiros posts de novos usuários.
Configurar classificação de IA
O campo de prompt do sistema foi preterido em favor das Personas. Se você tinha uma automação de IA antes desta alteração, uma nova Persona com o prompt de sistema associado será criada automaticamente.
Persona:
Selecione a Persona definida para a automação de detecção de NSFW.
Texto de busca:
Insira a saída exata do seu prompt que aciona as ações de automação. Usando os exemplos acima, insira NSFW.
Definir ações de moderação
Categorização e marcação:
- Defina a categoria para onde os posts sinalizados devem ser movidos
- Especifique tags a serem adicionadas ao conteúdo NSFW identificado
Opções de sinalização:
- Escolha o tipo de sinalização: spam (ocultar automaticamente) ou fila de revisão (revisão manual)
- Habilite “Ocultar Tópico” para ocultar automaticamente o conteúdo sinalizado
Respostas automatizadas:
- Defina um usuário de resposta para respostas do sistema
- Crie uma mensagem personalizada explicando por que o post foi sinalizado
- Opcionalmente, use a Persona de IA para respostas dinâmicas
Observações
- Lembre-se, as chamadas de LLM podem ser caras. Ao aplicar um classificador, tome cuidado para monitorar os custos e sempre considere executá-lo apenas em pequenos subconjuntos.
- Embora modelos com melhor desempenho, como o GPT-4o, produzam melhores resultados, isso pode ter um custo mais alto. No entanto, vimos o custo diminuir ao longo do tempo à medida que os LLMs ficam ainda melhores e mais baratos.
Outros usos
O prompt poderia ser personalizado para realizar todos os tipos de detecção, como exposição de PII e detecção de spam. Adoraríamos saber como você está colocando essa automação em prática para beneficiar sua Comunidade!


