Configurando a detecção de NSFW na sua comunidade

:bookmark: Este é um guia para configurar a detecção de conteúdo NSFW em sua comunidade usando a automação do Discourse AI para identificar e moderar imagens e textos inadequados.

:person_raising_hand: Nível de usuário necessário: Administrador

Configurando a detecção de NSFW em sua comunidade

Detecte e modere automaticamente conteúdo NSFW (Not Safe for Work - Inapropriado para o Trabalho) em sua comunidade Discourse usando automação baseada em IA. Este guia ajudará você a configurar a detecção automatizada tanto para imagens inadequadas quanto para conteúdo de texto, permitindo que você mantenha os padrões da comunidade com o mínimo de intervenção manual.

Sumário

Esta documentação abrange a configuração da automação Triage posts using AI (Triagem de posts usando IA) do Discourse AI para:

  • Detectar imagens NSFW usando modelos de IA com capacidade de visão (vision-enabled)
  • Identificar conteúdo e linguagem de texto inadequados
  • Sinalizar, categorizar e moderar automaticamente posts problemáticos
  • Configurar respostas personalizadas e ações de moderação

A automação usa Large Language Models (LLMs) para analisar o conteúdo do post e executa ações predefinidas quando material NSFW é detectado.

Pré-requisitos

Antes de configurar a detecção NSFW, certifique-se de que os seguintes itens estejam ativados:

  • Plugin Discourse AI: O plugin principal de funcionalidade de IA
  • Plugin Discourse Automation: Necessário para criar regras automatizadas
  • Agent (Agente): Agent (Agente) com um prompt de sistema que define o que constitui conteúdo NSFW. Use linguagem distinta para classificações positivas e negativas para evitar confusão.
  • LLM com capacidade de visão (Vision-enabled LLM): Necessário apenas para detecção de imagens; LLMs padrão funcionam para detecção apenas de texto. Certifique-se de que “Vision enabled” (Visão ativada) esteja ligado tanto para o modelo LLM quanto para o Agente.
    • Clientes hospedados pelo Discourse podem selecionar nosso CDCK Hosted Small LLM ao configurar Agentes.
    • Usuários do Discourse auto-hospedados precisarão configurar um LLM de terceiros.

Exemplos de prompts:

Para detecção de imagem:

Você é um bot especializado em classificação de imagens. Responda apenas com NSFW ou SAFE, e nada mais. NSFW é pornografia ou gore (violência gráfica), e SAFE é todo o resto. Na dúvida, responda SAFE.

Para detecção de texto:

Você é um sistema avançado de moderação de conteúdo de IA, projetado para triar posts gerados por usuários. Sua tarefa é detectar e sinalizar qualquer conteúdo que inclua linguagem imprópria, termos inadequados ou conteúdo NSFW (Not Safe for Work).

Conteúdo NSFW inclui conteúdo sexual explícito, violência, discurso de ódio, linguagem gráfica, discriminação, referências a automutilação ou atividade ilegal.

Responda com exatamente uma palavra:
* "SAFE": O post é apropriado e não contém conteúdo impróprio ou NSFW
* "NSFW": Se conteúdo impróprio, inadequado ou NSFW for detectado

Seja consciente do contexto e evite falsos positivos.

Etapas de configuração

Ativar plugins necessários

  1. Navegue até o painel de administração do seu site
  2. Vá para Plugins > Installed Plugins (Plugins Instalados)
  3. Ative os plugins Discourse AI e Automation

Criar regra de automação

  1. No painel de administração, navegue até Plugins > Automation
  2. Clique em + Create (+ Criar) para começar a criar uma nova regra de automação
  3. Selecione Triage Posts Using AI (Triagem de Posts Usando IA)
  4. Defina um nome descritivo (ex: “Detecção de Conteúdo NSFW”)

Configurar gatilhos e restrições

Definir o gatilho:

  • Escolha Post created/edited (Post criado/editado) como o gatilho para escanear posts novos ou editados
  • Alternativamente, escolha Stalled topic (Tópico parado) para triar tópicos que ficaram sem respostas por um período especificado
  • Opcionalmente, especifique o tipo de Ação, Categorias, Tags, Grupos, Níveis de Confiança ou Recursos do Post para restringir o escopo da automação
  • Deixe os campos em branco para aplicar a automação em todo o site

Restrições opcionais (Gatilho Post criado/editado):
Configure configurações adicionais para limitar ainda mais o escopo da automação:

  • First post only (Apenas primeiro post) ou Original post only (Apenas post original) para mirar apenas em novos tópicos
  • First topic only (Apenas primeiro tópico) para mirar apenas no primeiro tópico de um usuário
  • Post features (Recursos do Post) para restringir a posts com imagens, links, código ou uploads — útil para detecção de NSFW baseada em imagem
  • Restricted archetype (Arquétipo restrito) para limitar a tópicos regulares, tópicos públicos ou mensagens pessoais

Configurar classificação por IA

:spiral_notepad: O campo de prompt do sistema foi descontinuado em favor dos Agentes. Se você tinha uma automação de IA antes desta mudança, um novo Agente com o prompt de sistema associado será criado automaticamente.

Agent (Agente):
Selecione o Agente definido para a automação de detecção NSFW.

Search text (Texto de busca):
Insira a saída exata do seu prompt que aciona as ações de automação. Usando os exemplos acima, insira NSFW.

Advanced options (Opções avançadas):

  • Max Post Tokens (Máx. Tokens do Post): Limite quantos tokens do post são enviados para o LLM
  • Max output tokens (Máx. tokens de saída): Defina um limite superior para o número de tokens que o modelo pode gerar
  • Stop Sequences (Sequências de parada): Instrua o modelo a interromper a geração quando encontrar valores específicos

Definir ações de moderação

Categorização e marcação:

  • Defina a categoria para onde os posts sinalizados devem ser movidos
  • Especifique tags a serem adicionadas ao conteúdo NSFW identificado

Opções de sinalização (Flagging):

  • Ative Flag post (Sinalizar post) para ativar a sinalização e, em seguida, escolha um tipo de sinalização:
    • Add post to review queue (Adicionar post à fila de revisão) — envia o post para a fila de revisão para revisão manual do moderador
    • Add post to review queue and hide post (Adicionar post à fila de revisão e ocultar post) — fila de revisão + oculta o post imediatamente
    • Add post to review queue and delete post (Adicionar post à fila de revisão e excluir post) — fila de revisão + soft-deleta o post
    • Add post to review queue, delete post and silence user (Adicionar post à fila de revisão, excluir post e silenciar usuário) — fila de revisão + soft-deleta o post + silencia o autor
    • Flag as spam and hide post (Sinalizar como spam e ocultar post) — sinaliza o post como spam (o oculta automaticamente)
    • Flag as spam, hide post and silence user (Sinalizar como spam, ocultar post e silenciar usuário) — sinalização de spam + silencia o autor
  • Ative Hide Topic (Ocultar Tópico) para ocultar automaticamente o tópico inteiro

Respostas automatizadas:

  • Defina um Reply User (Usuário de Resposta) e Reply (Resposta pronta) para postar uma mensagem fixa explicando por que o post foi sinalizado
  • Selecione um Reply Agent (Agente de Resposta) para usar um agente de IA separado para gerar respostas dinâmicas (isso tem prioridade sobre uma resposta pronta)
  • Ative Reply as Whisper (Responder como Sussurro) para tornar a resposta visível apenas para a equipe

Notificações do autor:

  • Ative Notify author via PM (Notificar autor via MP) para enviar uma mensagem pessoal ao autor do post quando seu conteúdo for sinalizado
  • Defina um usuário PM sender (Remetente da MP) (padrão é o sistema) e opcionalmente forneça um PM content (Conteúdo da MP) personalizado

Outras opções:

  • Ative Include personal messages (Incluir mensagens pessoais) para também escanear e triar mensagens pessoais

Ressalvas

  • Tenha em mente que chamadas para LLMs podem ser caras. Ao aplicar um classificador, tenha cuidado para monitorar os custos e sempre considere rodar isso apenas em subconjuntos pequenos.
  • Embora modelos com melhor desempenho, por exemplo, GPT-4o, produzam melhores resultados, isso pode ter um custo mais alto. No entanto, observamos a diminuição do custo ao longo do tempo à medida que os LLMs ficam ainda melhores e mais baratos.

Outros usos

O prompt poderia ser personalizado para realizar todos os tipos de detecção, como exposição de PII (Informações de Identificação Pessoal) e detecção de spam. Adoraríamos saber como você está colocando essa automação para funcionar para beneficiar sua Comunidade!

8 curtidas

Uma postagem foi dividida em um novo tópico: LLM e Atraso na Detecção de Conteúdo NSFW