Configurando a detecção de NSFW na sua comunidade

Saif · Outubro 10, 2024, 4:26am

Este é um guia para configurar a detecção de conteúdo NSFW em sua comunidade usando a automação do Discourse AI para identificar e moderar imagens e textos inadequados.

Nível de usuário necessário: Administrador

Configurando a detecção de NSFW em sua comunidade

Detecte e modere automaticamente conteúdo NSFW (Not Safe for Work - Inapropriado para o Trabalho) em sua comunidade Discourse usando automação baseada em IA. Este guia ajudará você a configurar a detecção automatizada tanto para imagens inadequadas quanto para conteúdo de texto, permitindo que você mantenha os padrões da comunidade com o mínimo de intervenção manual.

Sumário

Esta documentação abrange a configuração da automação Triage posts using AI (Triagem de posts usando IA) do Discourse AI para:

Detectar imagens NSFW usando modelos de IA com capacidade de visão (vision-enabled)
Identificar conteúdo e linguagem de texto inadequados
Sinalizar, categorizar e moderar automaticamente posts problemáticos
Configurar respostas personalizadas e ações de moderação

A automação usa Large Language Models (LLMs) para analisar o conteúdo do post e executa ações predefinidas quando material NSFW é detectado.

Pré-requisitos

Antes de configurar a detecção NSFW, certifique-se de que os seguintes itens estejam ativados:

Plugin Discourse AI: O plugin principal de funcionalidade de IA
Plugin Discourse Automation: Necessário para criar regras automatizadas
Agent (Agente): Agent (Agente) com um prompt de sistema que define o que constitui conteúdo NSFW. Use linguagem distinta para classificações positivas e negativas para evitar confusão.
LLM com capacidade de visão (Vision-enabled LLM): Necessário apenas para detecção de imagens; LLMs padrão funcionam para detecção apenas de texto. Certifique-se de que “Vision enabled” (Visão ativada) esteja ligado tanto para o modelo LLM quanto para o Agente.
- Clientes hospedados pelo Discourse podem selecionar nosso CDCK Hosted Small LLM ao configurar Agentes.
- Usuários do Discourse auto-hospedados precisarão configurar um LLM de terceiros.

Exemplos de prompts:

Para detecção de imagem:

Você é um bot especializado em classificação de imagens. Responda apenas com NSFW ou SAFE, e nada mais. NSFW é pornografia ou gore (violência gráfica), e SAFE é todo o resto. Na dúvida, responda SAFE.

Para detecção de texto:

Você é um sistema avançado de moderação de conteúdo de IA, projetado para triar posts gerados por usuários. Sua tarefa é detectar e sinalizar qualquer conteúdo que inclua linguagem imprópria, termos inadequados ou conteúdo NSFW (Not Safe for Work).

Conteúdo NSFW inclui conteúdo sexual explícito, violência, discurso de ódio, linguagem gráfica, discriminação, referências a automutilação ou atividade ilegal.

Responda com exatamente uma palavra:
* "SAFE": O post é apropriado e não contém conteúdo impróprio ou NSFW
* "NSFW": Se conteúdo impróprio, inadequado ou NSFW for detectado

Seja consciente do contexto e evite falsos positivos.

Etapas de configuração

Ativar plugins necessários

Navegue até o painel de administração do seu site
Vá para Plugins > Installed Plugins (Plugins Instalados)
Ative os plugins Discourse AI e Automation

Criar regra de automação

No painel de administração, navegue até Plugins > Automation
Clique em + Create (+ Criar) para começar a criar uma nova regra de automação
Selecione Triage Posts Using AI (Triagem de Posts Usando IA)
Defina um nome descritivo (ex: “Detecção de Conteúdo NSFW”)

Configurar gatilhos e restrições

Definir o gatilho:

Escolha Post created/edited (Post criado/editado) como o gatilho para escanear posts novos ou editados
Alternativamente, escolha Stalled topic (Tópico parado) para triar tópicos que ficaram sem respostas por um período especificado
Opcionalmente, especifique o tipo de Ação, Categorias, Tags, Grupos, Níveis de Confiança ou Recursos do Post para restringir o escopo da automação
Deixe os campos em branco para aplicar a automação em todo o site

Restrições opcionais (Gatilho Post criado/editado):
Configure configurações adicionais para limitar ainda mais o escopo da automação:

First post only (Apenas primeiro post) ou Original post only (Apenas post original) para mirar apenas em novos tópicos
First topic only (Apenas primeiro tópico) para mirar apenas no primeiro tópico de um usuário
Post features (Recursos do Post) para restringir a posts com imagens, links, código ou uploads — útil para detecção de NSFW baseada em imagem
Restricted archetype (Arquétipo restrito) para limitar a tópicos regulares, tópicos públicos ou mensagens pessoais

Configurar classificação por IA

O campo de prompt do sistema foi descontinuado em favor dos Agentes. Se você tinha uma automação de IA antes desta mudança, um novo Agente com o prompt de sistema associado será criado automaticamente.

Agent (Agente):
Selecione o Agente definido para a automação de detecção NSFW.

Search text (Texto de busca):
Insira a saída exata do seu prompt que aciona as ações de automação. Usando os exemplos acima, insira NSFW.

Advanced options (Opções avançadas):

Max Post Tokens (Máx. Tokens do Post): Limite quantos tokens do post são enviados para o LLM
Max output tokens (Máx. tokens de saída): Defina um limite superior para o número de tokens que o modelo pode gerar
Stop Sequences (Sequências de parada): Instrua o modelo a interromper a geração quando encontrar valores específicos

Definir ações de moderação

Categorização e marcação:

Defina a categoria para onde os posts sinalizados devem ser movidos
Especifique tags a serem adicionadas ao conteúdo NSFW identificado

Opções de sinalização (Flagging):

Ative Flag post (Sinalizar post) para ativar a sinalização e, em seguida, escolha um tipo de sinalização:
- Add post to review queue (Adicionar post à fila de revisão) — envia o post para a fila de revisão para revisão manual do moderador
- Add post to review queue and hide post (Adicionar post à fila de revisão e ocultar post) — fila de revisão + oculta o post imediatamente
- Add post to review queue and delete post (Adicionar post à fila de revisão e excluir post) — fila de revisão + soft-deleta o post
- Add post to review queue, delete post and silence user (Adicionar post à fila de revisão, excluir post e silenciar usuário) — fila de revisão + soft-deleta o post + silencia o autor
- Flag as spam and hide post (Sinalizar como spam e ocultar post) — sinaliza o post como spam (o oculta automaticamente)
- Flag as spam, hide post and silence user (Sinalizar como spam, ocultar post e silenciar usuário) — sinalização de spam + silencia o autor
Ative Hide Topic (Ocultar Tópico) para ocultar automaticamente o tópico inteiro

Respostas automatizadas:

Defina um Reply User (Usuário de Resposta) e Reply (Resposta pronta) para postar uma mensagem fixa explicando por que o post foi sinalizado
Selecione um Reply Agent (Agente de Resposta) para usar um agente de IA separado para gerar respostas dinâmicas (isso tem prioridade sobre uma resposta pronta)
Ative Reply as Whisper (Responder como Sussurro) para tornar a resposta visível apenas para a equipe

Notificações do autor:

Ative Notify author via PM (Notificar autor via MP) para enviar uma mensagem pessoal ao autor do post quando seu conteúdo for sinalizado
Defina um usuário PM sender (Remetente da MP) (padrão é o sistema) e opcionalmente forneça um PM content (Conteúdo da MP) personalizado

Outras opções:

Ative Include personal messages (Incluir mensagens pessoais) para também escanear e triar mensagens pessoais

Ressalvas

Tenha em mente que chamadas para LLMs podem ser caras. Ao aplicar um classificador, tenha cuidado para monitorar os custos e sempre considere rodar isso apenas em subconjuntos pequenos.
Embora modelos com melhor desempenho, por exemplo, GPT-4o, produzam melhores resultados, isso pode ter um custo mais alto. No entanto, observamos a diminuição do custo ao longo do tempo à medida que os LLMs ficam ainda melhores e mais baratos.

Outros usos

O prompt poderia ser personalizado para realizar todos os tipos de detecção, como exposição de PII (Informações de Identificação Pessoal) e detecção de spam. Adoraríamos saber como você está colocando essa automação para funcionar para beneficiar sua Comunidade!

sam · Março 2, 2026, 4:06am

Uma postagem foi dividida em um novo tópico: LLM e Atraso na Detecção de Conteúdo NSFW

Tópico		Respostas	Visualizações
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	461	7 de Julho de 2023
Setting up toxicity detection in your community Site Management automation , ai , how-to , moderation	0	1052	7 de Agosto de 2024
NSFW image blurring in chat Support chat , ai	5	591	26 de Setembro de 2024
Discourse AI - Spam detection Site Management moderation , spam , how-to , ai	32	3751	10 de Março de 2026
AI integration for moderation Support	2	106	25 de Janeiro de 2026