Configurando detecção de conteúdo NSFW na sua comunidade

:bookmark: Este é um guia para configurar a detecção de conteúdo NSFW em sua comunidade usando a automação do Discourse AI para identificar e moderar imagens e textos inadequados.

:person_raising_hand: Nível de usuário necessário: Administrador

Configurando a detecção de NSFW em sua comunidade

Detecte e modere automaticamente conteúdo NSFW (Not Safe for Work - Não Seguro para o Trabalho) em sua comunidade Discourse usando automação alimentada por IA. Este guia ajudará você a configurar a detecção automatizada para conteúdo de imagem e texto inadequados, permitindo que você mantenha os padrões da comunidade com intervenção manual mínima.

Resumo

Esta documentação abrange a configuração da automação do Classificador de Posts do Discourse AI para:

  • Detectar imagens NSFW usando modelos de IA com capacidade de visão
  • Identificar conteúdo de texto e linguagem inadequados
  • Marcar, categorizar e moderar automaticamente posts problemáticos
  • Configurar respostas personalizadas e ações de moderação

A automação usa modelos de linguagem grandes (LLMs) para analisar o conteúdo dos posts e toma ações predefinidas quando material NSFW é detectado.

Pré-requisitos

Antes de configurar a detecção de NSFW, certifique-se de ter o seguinte habilitado:

  • Plugin Discourse AI - O plugin principal de funcionalidade de IA
  • Plugin Discourse Automation: Necessário para criar regras automatizadas
  • Persona: Persona com um prompt de sistema que define o que constitui conteúdo NSFW. Use linguagem distinta para classificações positivas e negativas para evitar confusão.
  • LLM com capacidade de visão: Necessário apenas para detecção de imagem; LLMs padrão funcionam para detecção apenas de texto.
    • Clientes hospedados pelo Discourse podem selecionar nosso LLM Pequeno Hospedado pelo CDCK ao configurar Personas.
    • Usuários do Discourse auto-hospedados precisarão configurar um LLM de terceiros.

Exemplos de prompts:

Para detecção de imagem:

Você é um bot especializado em classificação de imagens. Responda apenas com NSFW ou SAFE, e nada mais. NSFW é pornografia ou gore, e SAFE é todo o resto. Em caso de dúvida, responda com SAFE.

Para detecção de texto:

Você é um sistema avançado de moderação de conteúdo de IA projetado para triar posts gerados por usuários. Sua tarefa é detectar e sinalizar qualquer conteúdo que inclua linguagem inadequada, termos impróprios ou conteúdo NSFW (Not Safe for Work).

Conteúdo NSFW inclui conteúdo sexual explícito, violência, discurso de ódio, linguagem gráfica, discriminação, referências a automutilação ou atividade ilegal.

Responda com exatamente uma palavra:
* "SAFE": O post é apropriado e não contém conteúdo inadequado ou NSFW
* "NSFW": Se conteúdo inadequado, impróprio ou NSFW for detectado

Seja consciente do contexto e evite falsos positivos.

Etapas de configuração

Habilitar plugins necessários

  1. Navegue até o painel de administração do seu site
  2. Vá para Plugins > Plugins Instalados
  3. Habilite os plugins Discourse AI e Automation

Criar regra de automação

  1. No painel de administração, navegue até Plugins > Automation
  2. Clique em + Criar para começar a criar uma nova regra de automação
  3. Selecione Triar Posts Usando IA
  4. Defina um nome descritivo (por exemplo, “Detecção de Conteúdo NSFW”)

Configurar gatilhos e restrições

Definir o gatilho:

  • Escolha Post criado/editado como o gatilho
  • Opcionalmente, especifique o tipo de Ação, Categoria, Tags, Grupos ou Níveis de Confiança para restringir o escopo da automação
  • Deixe os campos em branco para aplicar a automação em todo o site

Restrições opcionais:
Configure configurações adicionais na seção O quê/Quando para limitar ainda mais o escopo da automação, como direcionar apenas os primeiros posts de novos usuários.

Configurar classificação de IA

:spiral_notepad: O campo de prompt do sistema foi preterido em favor das Personas. Se você tinha uma automação de IA antes desta alteração, uma nova Persona com o prompt de sistema associado será criada automaticamente.

Persona:
Selecione a Persona definida para a automação de detecção de NSFW.

Texto de busca:
Insira a saída exata do seu prompt que aciona as ações de automação. Usando os exemplos acima, insira NSFW.

Definir ações de moderação

Categorização e marcação:

  • Defina a categoria para onde os posts sinalizados devem ser movidos
  • Especifique tags a serem adicionadas ao conteúdo NSFW identificado

Opções de sinalização:

  • Escolha o tipo de sinalização: spam (ocultar automaticamente) ou fila de revisão (revisão manual)
  • Habilite “Ocultar Tópico” para ocultar automaticamente o conteúdo sinalizado

Respostas automatizadas:

  • Defina um usuário de resposta para respostas do sistema
  • Crie uma mensagem personalizada explicando por que o post foi sinalizado
  • Opcionalmente, use a Persona de IA para respostas dinâmicas

Observações

  • Lembre-se, as chamadas de LLM podem ser caras. Ao aplicar um classificador, tome cuidado para monitorar os custos e sempre considere executá-lo apenas em pequenos subconjuntos.
  • Embora modelos com melhor desempenho, como o GPT-4o, produzam melhores resultados, isso pode ter um custo mais alto. No entanto, vimos o custo diminuir ao longo do tempo à medida que os LLMs ficam ainda melhores e mais baratos.

Outros usos

O prompt poderia ser personalizado para realizar todos os tipos de detecção, como exposição de PII e detecção de spam. Adoraríamos saber como você está colocando essa automação em prática para beneficiar sua Comunidade!

6 curtidas