Este é um guia para configurar a detecção de conteúdo NSFW em sua comunidade usando a automação do Discourse AI para identificar e moderar imagens e textos inadequados.
Nível de usuário necessário: Administrador
Configurando a detecção de NSFW em sua comunidade
Detecte e modere automaticamente conteúdo NSFW (Not Safe for Work - Inapropriado para o Trabalho) em sua comunidade Discourse usando automação baseada em IA. Este guia ajudará você a configurar a detecção automatizada tanto para imagens inadequadas quanto para conteúdo de texto, permitindo que você mantenha os padrões da comunidade com o mínimo de intervenção manual.
Sumário
Esta documentação abrange a configuração da automação Triage posts using AI (Triagem de posts usando IA) do Discourse AI para:
- Detectar imagens NSFW usando modelos de IA com capacidade de visão (vision-enabled)
- Identificar conteúdo e linguagem de texto inadequados
- Sinalizar, categorizar e moderar automaticamente posts problemáticos
- Configurar respostas personalizadas e ações de moderação
A automação usa Large Language Models (LLMs) para analisar o conteúdo do post e executa ações predefinidas quando material NSFW é detectado.
Pré-requisitos
Antes de configurar a detecção NSFW, certifique-se de que os seguintes itens estejam ativados:
- Plugin Discourse AI: O plugin principal de funcionalidade de IA
- Plugin Discourse Automation: Necessário para criar regras automatizadas
- Agent (Agente): Agent (Agente) com um prompt de sistema que define o que constitui conteúdo NSFW. Use linguagem distinta para classificações positivas e negativas para evitar confusão.
- LLM com capacidade de visão (Vision-enabled LLM): Necessário apenas para detecção de imagens; LLMs padrão funcionam para detecção apenas de texto. Certifique-se de que “Vision enabled” (Visão ativada) esteja ligado tanto para o modelo LLM quanto para o Agente.
- Clientes hospedados pelo Discourse podem selecionar nosso CDCK Hosted Small LLM ao configurar Agentes.
- Usuários do Discourse auto-hospedados precisarão configurar um LLM de terceiros.
Exemplos de prompts:
Para detecção de imagem:
Você é um bot especializado em classificação de imagens. Responda apenas com NSFW ou SAFE, e nada mais. NSFW é pornografia ou gore (violência gráfica), e SAFE é todo o resto. Na dúvida, responda SAFE.
Para detecção de texto:
Você é um sistema avançado de moderação de conteúdo de IA, projetado para triar posts gerados por usuários. Sua tarefa é detectar e sinalizar qualquer conteúdo que inclua linguagem imprópria, termos inadequados ou conteúdo NSFW (Not Safe for Work).
Conteúdo NSFW inclui conteúdo sexual explícito, violência, discurso de ódio, linguagem gráfica, discriminação, referências a automutilação ou atividade ilegal.
Responda com exatamente uma palavra:
* "SAFE": O post é apropriado e não contém conteúdo impróprio ou NSFW
* "NSFW": Se conteúdo impróprio, inadequado ou NSFW for detectado
Seja consciente do contexto e evite falsos positivos.
Etapas de configuração
Ativar plugins necessários
- Navegue até o painel de administração do seu site
- Vá para Plugins > Installed Plugins (Plugins Instalados)
- Ative os plugins Discourse AI e Automation
Criar regra de automação
- No painel de administração, navegue até Plugins > Automation
- Clique em + Create (+ Criar) para começar a criar uma nova regra de automação
- Selecione Triage Posts Using AI (Triagem de Posts Usando IA)
- Defina um nome descritivo (ex: “Detecção de Conteúdo NSFW”)
Configurar gatilhos e restrições
Definir o gatilho:
- Escolha Post created/edited (Post criado/editado) como o gatilho para escanear posts novos ou editados
- Alternativamente, escolha Stalled topic (Tópico parado) para triar tópicos que ficaram sem respostas por um período especificado
- Opcionalmente, especifique o tipo de Ação, Categorias, Tags, Grupos, Níveis de Confiança ou Recursos do Post para restringir o escopo da automação
- Deixe os campos em branco para aplicar a automação em todo o site
Restrições opcionais (Gatilho Post criado/editado):
Configure configurações adicionais para limitar ainda mais o escopo da automação:
- First post only (Apenas primeiro post) ou Original post only (Apenas post original) para mirar apenas em novos tópicos
- First topic only (Apenas primeiro tópico) para mirar apenas no primeiro tópico de um usuário
- Post features (Recursos do Post) para restringir a posts com imagens, links, código ou uploads — útil para detecção de NSFW baseada em imagem
- Restricted archetype (Arquétipo restrito) para limitar a tópicos regulares, tópicos públicos ou mensagens pessoais
Configurar classificação por IA
O campo de prompt do sistema foi descontinuado em favor dos Agentes. Se você tinha uma automação de IA antes desta mudança, um novo Agente com o prompt de sistema associado será criado automaticamente.
Agent (Agente):
Selecione o Agente definido para a automação de detecção NSFW.
Search text (Texto de busca):
Insira a saída exata do seu prompt que aciona as ações de automação. Usando os exemplos acima, insira NSFW.
Advanced options (Opções avançadas):
- Max Post Tokens (Máx. Tokens do Post): Limite quantos tokens do post são enviados para o LLM
- Max output tokens (Máx. tokens de saída): Defina um limite superior para o número de tokens que o modelo pode gerar
- Stop Sequences (Sequências de parada): Instrua o modelo a interromper a geração quando encontrar valores específicos
Definir ações de moderação
Categorização e marcação:
- Defina a categoria para onde os posts sinalizados devem ser movidos
- Especifique tags a serem adicionadas ao conteúdo NSFW identificado
Opções de sinalização (Flagging):
- Ative Flag post (Sinalizar post) para ativar a sinalização e, em seguida, escolha um tipo de sinalização:
- Add post to review queue (Adicionar post à fila de revisão) — envia o post para a fila de revisão para revisão manual do moderador
- Add post to review queue and hide post (Adicionar post à fila de revisão e ocultar post) — fila de revisão + oculta o post imediatamente
- Add post to review queue and delete post (Adicionar post à fila de revisão e excluir post) — fila de revisão + soft-deleta o post
- Add post to review queue, delete post and silence user (Adicionar post à fila de revisão, excluir post e silenciar usuário) — fila de revisão + soft-deleta o post + silencia o autor
- Flag as spam and hide post (Sinalizar como spam e ocultar post) — sinaliza o post como spam (o oculta automaticamente)
- Flag as spam, hide post and silence user (Sinalizar como spam, ocultar post e silenciar usuário) — sinalização de spam + silencia o autor
- Ative Hide Topic (Ocultar Tópico) para ocultar automaticamente o tópico inteiro
Respostas automatizadas:
- Defina um Reply User (Usuário de Resposta) e Reply (Resposta pronta) para postar uma mensagem fixa explicando por que o post foi sinalizado
- Selecione um Reply Agent (Agente de Resposta) para usar um agente de IA separado para gerar respostas dinâmicas (isso tem prioridade sobre uma resposta pronta)
- Ative Reply as Whisper (Responder como Sussurro) para tornar a resposta visível apenas para a equipe
Notificações do autor:
- Ative Notify author via PM (Notificar autor via MP) para enviar uma mensagem pessoal ao autor do post quando seu conteúdo for sinalizado
- Defina um usuário PM sender (Remetente da MP) (padrão é o sistema) e opcionalmente forneça um PM content (Conteúdo da MP) personalizado
Outras opções:
- Ative Include personal messages (Incluir mensagens pessoais) para também escanear e triar mensagens pessoais
Ressalvas
- Tenha em mente que chamadas para LLMs podem ser caras. Ao aplicar um classificador, tenha cuidado para monitorar os custos e sempre considere rodar isso apenas em subconjuntos pequenos.
- Embora modelos com melhor desempenho, por exemplo, GPT-4o, produzam melhores resultados, isso pode ter um custo mais alto. No entanto, observamos a diminuição do custo ao longo do tempo à medida que os LLMs ficam ainda melhores e mais baratos.
Outros usos
O prompt poderia ser personalizado para realizar todos os tipos de detecção, como exposição de PII (Informações de Identificação Pessoal) e detecção de spam. Adoraríamos saber como você está colocando essa automação para funcionar para beneficiar sua Comunidade!


