Configurando a detecção de spam em sua comunidade

:bookmark: Este é um guia de #como-fazer para configurar a detecção de spam em sua comunidade usando o Discourse AI - AI triage.

:person_raising_hand: Nível de usuário necessário: Administrador

:warning: O Discourse AI agora envia um scanner de spam eficiente que requer configuração mínima. Para casos de uso personalizados ou complexos, recomendamos seguir este guia

Visão Geral

A detecção de spam é um recurso essencial para manter a qualidade das discussões em sua comunidade. Este guia o ajudará a configurar a detecção de spam usando o Discourse AI - AI triage.

Pré-requisitos

Para configurar a detecção de spam, você precisa do seguinte:

  • Discourse AI
  • Discourse Automation
  • Agente de IA com um prompt de sistema que define o que constitui conteúdo de spam.
  • LLM (Modelo de Linguagem Grande)
    • Clientes com hospedagem no Discourse podem selecionar um LLM hospedado ao configurar Agentes de IA.
    • Usuários do Discourse auto-hospedados precisarão configurar um LLM de terceiros.

:warning: Ao elaborar o prompt, ao escolher entre spam e não spam - evite ter linguagem semelhante para o resultado final. Neste exemplo, usamos spam e ham (para não spam)

O classificador nem sempre terá um desempenho 100% perfeito, portanto, esteja ciente de resultados incorretos e personalize os prompts de acordo com as necessidades de sua comunidade. Quanto mais focado, melhor.

Copiar prompts LLM para detecção de conteúdo de spam AI

Você é um modelo de IA de detecção de spam que auxilia moderadores de comunidades online. Sua tarefa é analisar postagens de fórum e determinar se são spam que deve ser removido para manter uma comunidade de alta qualidade e dentro do tópico.

Uma postagem deve ser classificada como spam se atender a algum destes critérios:

  • A postagem não é relevante para o tópico ou propósito principal do fórum. Está completamente fora do tópico.
  • Contém links externos suspeitos e irrelevantes, especialmente se apontarem para sites comerciais.
  • A postagem está claramente promovendo ou anunciando um produto, serviço, site ou conta de mídia social que não está relacionada à comunidade.
  • Contém links de afiliados ou códigos de referência que tentam monetizar cliques.
  • A qualidade da escrita é de esforço muito baixo - muitos erros de ortografia/gramática, falta de pontuação ou parece ser texto gerado automaticamente.
  • Conteúdo idêntico ou quase idêntico está sendo postado repetidamente pelo mesmo autor ou em múltiplas contas em um curto período.

Uma postagem deve ser classificada como ham (legítima) se:

  • A postagem está no tópico e é relevante para o propósito do fórum
  • É uma pergunta genuína, história pessoal, opinião substantiva ou contribuição legítima para a discussão da comunidade
  • Quaisquer links externos são relevantes e apontam para sites de boa reputação, não comerciais
  • A escrita parece ser de um humano e atende aos padrões de qualidade de gramática, ortografia, etc.

Alguns casos limítrofes a serem observados:

  • Uma postagem que menciona um produto ou serviço, mas ainda é uma pergunta ou discussão relevante e no tópico, deve ser considerada ham, não spam.
  • Citações, trechos de código ou texto formatado que parecem incomuns não são necessariamente spam.

Quando terminar de analisar a postagem, você deve fornecer APENAS uma classificação de “spam” ou “ham”. Se estiver em dúvida, use “ham” como padrão para evitar falsos positivos.

Estas instruções devem ser seguidas a todo custo

Configuração

:information_source: Nem todas as etapas são obrigatórias, pois as regras de automação podem ser personalizadas conforme necessário. Para um esboço de todas as configurações disponíveis, visite Discourse AI - AI triage.

  1. Ativar o plugin Discourse AI e Automation:
  • Navegue até o painel de administração do seu site.
  • Navegue até Plugins e depois Plugins Instalados
  • Ative os plugins Discourse AI e Automation
  1. Criar uma Nova Regra de Automação:
  • Navegue até o painel de administração do seu site.
  • Navegue até Plugins e clique em Automation
  • Clique no botão + Criar para começar a criar uma nova regra de Automação
  • Clique em Triage Posts Using AI (Triagem de Postagens Usando IA)
  • Defina o nome (ex: “Triagem de Postagens usando IA”)
  • Deixe Triage Posts Using AI como o script selecionado

O Quê/Quando

  1. Definir o Gatilho:
  • Escolha Postagem criada/editada ou Tópico Estagnado como o gatilho.
  • Opcionalmente, especifique o tipo de Ação, Categoria, Tags, Grupos e/ou Níveis de Confiança se desejar restringir esta Automação a cenários específicos. Deixar esses campos em branco permitirá que a Automação opere sem restrições.
  • Configure quaisquer das configurações opcionais restantes na seção O Quê/Quando para restringir ainda mais a automação.

Opções de Script

:spiral_notepad: O campo de prompt do sistema foi descontinuado em favor dos Agentes de IA. Se você tinha uma automação de IA antes desta alteração, um novo Agente de IA com o prompt de sistema associado será criado automaticamente.

  1. Agente:

    Selecione o Agente de IA definido para a automação de detecção de spam. O agente deve ter um LLM padrão configurado.

  2. Pesquisar por Texto:

    Insira a saída do seu prompt que acionará a automação, apenas o resultado “positivo”. Usando nosso exemplo acima, inseriríamos spam.

  1. Definir Categoria e Tags:

    Defina a categoria para onde essas postagens devem ser movidas e as tags a serem adicionadas se a postagem for marcada como spam.

  2. Sinalização (Flagging):

  • Ative a opção “Sinalizar postagem” para sinalizar postagens correspondentes.
  • Selecione um tipo de sinalização para determinar qual ação tomar:
    • Adicionar postagem à fila de revisão — envia a postagem para a fila de revisão para ação do moderador.
    • Adicionar postagem à fila de revisão e ocultar postagem — envia para revisão e oculta a postagem.
    • Adicionar postagem à fila de revisão e excluir postagem — envia para revisão e soft-deleta a postagem.
    • Adicionar postagem à fila de revisão, excluir postagem e silenciar usuário — envia para revisão, soft-deleta e silencia o autor.
    • Sinalizar como spam e ocultar postagem — sinaliza como spam e oculta.
    • Sinalizar como spam, ocultar postagem e silenciar usuário — sinaliza como spam, oculta e silencia o autor.
  1. Opções Adicionais:
  • Ative a opção “Ocultar Tópico” se quiser que o tópico da postagem seja ocultado.
  • Defina uma “Resposta” que será postada no tópico quando a postagem for considerada spam.
  • Use a opção “Agente de Resposta” para que um Agente de IA diferente componha uma resposta dinâmica em vez de uma resposta pré-definida.
  • Ative “Responder como Sussurro” para que as respostas fiquem visíveis apenas para a equipe.
  • Ative “Incluir mensagens pessoais” para também analisar e triar mensagens pessoais.
  • Ative “Notificar autor via MP” para enviar uma mensagem pessoal ao autor da postagem quando o conteúdo dele for sinalizado. Você pode configurar o remetente da MP e o conteúdo da mensagem personalizada.

Notas Adicionais

  • Ao usar a Automação para combater spam, recomendamos desativar o plugin Akismet se ele já estiver ativado. Isso é para garantir que apenas um sistema esteja combatendo o spam para obter melhores resultados.
  • Tenha em mente que as chamadas LLM podem ser caras. Ao aplicar um classificador, tome cuidado para monitorar os custos e sempre considere executá-lo apenas em pequenos subconjuntos
  • Embora modelos de melhor desempenho forneçam melhores resultados, eles podem ter um custo maior
  • O prompt pode ser personalizado para fazer todo tipo de detecção, como exposição de PII (Informações de Identificação Pessoal), violações do Código de Conduta, etc.
11 curtidas

5 posts foram movidos para um novo tópico: Explorando os Limites da IA no Reconhecimento de Conteúdo Gerado por IA

Curioso para saber como tem sido a experiência dos usuários com este método?

1 curtida

Comecei a testá-lo agora mesmo, e ele já fez um bom trabalho (por enquanto, escolhi aplicar apenas uma tag oculta para validar que as coisas funcionarão corretamente, em vez de enviar as coisas para a fila de revisão imediatamente).

Mas tenho um pequeno acompanhamento/esclarecimento: seria possível para a integração acessar consultas personalizadas com saídas, como um grupo de posts de exemplo, para serem usados como dados de contexto?

Mais concretamente, gostaria de alimentá-lo com todos os posts de spam anteriores com base nas bandeiras que foram acordadas e resultaram na exclusão do post.

1 curtida

No momento, suportamos apenas uma única mensagem do sistema.

Acho que podemos fazer um acompanhamento onde você pode fornecer N exemplos de coisas a não sinalizar e N exemplos de coisas a sinalizar. Isso potencialmente poderia aumentar a precisão.

Talvez fazer um tópico de recurso dedicado sobre isso?

1 curtida

Vou tentar reunir mais pensamentos sobre isso primeiro. Executá-lo na última semana foi bastante bem-sucedido, mas ainda estou encontrando alguns pequenos aborrecimentos, como não conseguir excluir rapidamente mensagens privadas (por exemplo, ele muitas vezes acha que as interações do tutorial do Discobot são suspeitas; editei o prompt para não considerar essas, mas os logs de IA indicam que a detecção não conhece o contexto e considera apenas o conteúdo da própria postagem).

2 curtidas

Isso não parece muito certo… Não tenho certeza de qual era a instrução pretendida aqui? Talvez ‘Habilitar IA e habilitar Automação’?

1 curtida

Fiz a edição aqui

2 curtidas

Tenho curiosidade, existe uma maneira de mover respostas para um novo tópico, em vez do tópico inteiro? Poderia ser um tópico legítimo, mas um spammer entra e posta uma resposta de spam. Pelo que vejo, está movendo o tópico inteiro, não essa resposta específica.
Enquanto estou nisso, qual é a diferença entre isso e o detector de spam do Discourse AI?

Você poderia explicar isso melhor com um exemplo?

FYI: Você deve ser capaz de marcar a opção Flag post que deve sinalizar apenas a postagem de “spam”.

1 curtida

Claro. Por exemplo, digamos que, em um fórum de suporte, um spammer poste uma resposta de spam em um tópico existente sobre os problemas que ele está enfrentando. O OP e as pessoas que respondem não são o mesmo usuário que o spammer. Se eu entendi corretamente, o AI Triage ocultará todo o tópico e sinalizará a postagem. Em vez disso, a postagem de spam poderia ser movida para um tópico específico, em uma categoria disponível para administradores?

Eu estava pensando nisso enquanto lia esta postagem.

Sim, estou fazendo isso atualmente para o detector de discurso de ódio usando o AI Triage.

Lol, como eu pude perder isso :laughing:

1 curtida

O AI Spam simplesmente ocultará a postagem, podemos provavelmente adicionar essa opção ao triage também.

2 curtidas