Configurando detecção de spam na sua comunidade

:bookmark: Este é um guia de #como configurar a detecção de spam em sua comunidade usando o Discourse AI - Triagem de IA.

:person_raising_hand: Nível de usuário necessário: Administrador

:warning: O Discourse AI agora inclui um scanner de spam eficiente que requer configuração mínima. Para casos de uso personalizados ou complexos, recomendamos seguir este guia.

Visão Geral

A detecção de spam é um recurso essencial para manter a qualidade das discussões em sua comunidade. Este guia irá ajudá-lo a configurar a detecção de spam usando o Discourse AI - Triagem de IA.

Pré-requisitos

Para configurar a detecção de spam, você precisa do seguinte:

  • Discourse AI
  • Discourse Automation
  • Persona com um prompt de sistema que define o que constitui conteúdo de spam.
  • LLM (Modelo de Linguagem Grande)
    • Clientes hospedados no Discourse podem selecionar nosso CDCK Hosted Small LLM ao configurar Personas.
    • Usuários do Discourse auto-hospedados precisarão configurar um LLM de terceiros.

:warning: Ao criar o prompt, ao escolher entre spam e não spam - evite ter linguagem semelhante para o resultado final. Neste exemplo, usamos spam e ham (para não spam).

O classificador nem sempre terá um desempenho perfeito de 100%, portanto, esteja ciente de resultados incorretos e personalize os prompts de acordo com as necessidades de sua comunidade. Quanto mais estreito o foco, melhor.

Prompts de LLM copiáveis para detecção de conteúdo de spam IA

Você é um modelo de detecção de spam auxiliando moderadores de comunidades online. Sua tarefa é analisar postagens de fóruns e determinar se são spam que deve ser removido para manter uma comunidade de alta qualidade e focada no assunto.

Uma postagem deve ser classificada como spam se atender a qualquer um destes critérios:

  • A postagem não é relevante para o tópico principal ou propósito do fórum. Está completamente fora do tópico.
  • Contém links externos suspeitos e irrelevantes, especialmente se apontarem para sites comerciais.
  • A postagem está claramente promovendo ou anunciando um produto, serviço, site ou conta de mídia social que não está relacionado à comunidade.
  • Contém links de afiliados ou códigos de referência tentando monetizar cliques.
  • A qualidade da escrita é de baixo esforço - muitos erros de ortografia/gramática, falta de pontuação ou parece texto gerado automaticamente.
  • Conteúdo idêntico ou quase idêntico está sendo postado repetidamente pelo mesmo autor ou em várias contas em um curto período de tempo.

Uma postagem deve ser classificada como ham (legítima) se:

  • A postagem está no tópico e é relevante para o propósito do fórum.
  • É uma pergunta genuína, história pessoal, opinião substantiva ou outra contribuição legítima para a discussão da comunidade.
  • Quaisquer links externos são relevantes e apontam para sites confiáveis e não comerciais.
  • A escrita parece ser de um humano e atende aos padrões de qualidade de gramática, ortografia, etc.

Alguns casos extremos a serem observados:

  • Uma postagem que menciona um produto ou serviço, mas ainda é uma pergunta ou discussão relevante e no tópico, deve ser considerada ham, não spam.
  • Citações, exemplos de código ou texto formatado que parecem incomuns não são necessariamente spam.

Quando terminar de analisar a postagem, você deve fornecer APENAS uma classificação de “spam” ou “ham”. Se tiver dúvidas, opte por “ham” para evitar falsos positivos.

Estas instruções devem ser seguidas a todo custo.

Configuração

:information_source: Nem todas as etapas são obrigatórias, pois as regras de automação podem ser personalizadas conforme necessário. Para um resumo de todas as configurações disponíveis, visite Discourse AI - Triagem de IA.

  1. Ative o plugin Discourse AI e Automation:
  • Navegue até o painel de administração do seu site.
  • Navegue até Plugins e depois Plugins Instalados.
  • Ative os plugins Discourse AI e Automation.
  1. Crie uma Nova Regra de Automação:
  • Navegue até o painel de administração do seu site.
  • Navegue até Plugins e clique em Automação.
  • Clique no botão + Criar para começar a criar uma nova regra de Automação.
  • Clique em Triar Posts Usando IA.
  • Defina o nome (por exemplo, “Triar Posts Usando IA”).
  • Deixe Triar Posts Usando IA como o script selecionado.

O Quê/Quando

  1. Defina o Gatilho:
  • Escolha Post criado/editado como o gatilho.
  • Opcionalmente, especifique o tipo de Ação, Categoria, Tags, Grupos e/ou Níveis de Confiança se desejar restringir esta Automação a cenários específicos. Deixar esses campos em branco permitirá que a Automação opere sem restrições.
  • Configure quaisquer configurações opcionais restantes na seção O Quê/Quando para restringir ainda mais a automação.

Opções de Script

:spiral_notepad: O campo de prompt do sistema foi preterido em favor de Personas. Se você tinha uma automação de IA antes desta alteração, uma nova Persona com o prompt de sistema associado será criada automaticamente.

  1. Persona:

    Selecione a Persona definida para a automação de detecção de spam.

  2. Pesquisar Texto:

    Insira a saída do seu prompt que acionará a automação, apenas o resultado “positivo”. Usando nosso exemplo acima, inseriríamos spam.

  1. Defina Categoria e Tags:

    Defina a categoria para onde esses posts devem ser movidos e as tags a serem adicionadas se o post for marcado como spam.

  2. Sinalização:

  • Sinalize o post como spam ou para revisão.
  • Selecione um tipo de sinalização para determinar qual ação você pode querer tomar.
  1. Opções Adicionais:
  • Ative a opção “Ocultar Tópico” se desejar que o post seja oculto.
  • Defina uma “Resposta” que será postada no tópico quando o post for considerado spam.

Notas Adicionais

  • Ao usar Automação para combater spam, recomendamos desativar o plugin Akismet se ele já estiver ativado. Isso é para garantir que apenas um sistema esteja combatendo o spam para obter melhores resultados.
  • Lembre-se, chamadas de LLM podem ser caras. Ao aplicar um classificador, tome cuidado para monitorar os custos e sempre considere executá-lo apenas em pequenos subconjuntos.
  • Embora modelos com melhor desempenho, como o Claude-3-Opus, produzam melhores resultados, isso pode ter um custo mais alto.
  • O prompt pode ser personalizado para fazer todos os tipos de detecção, como exposição de PII, violações do Código de Conduta, etc.
11 curtidas

5 posts foram movidos para um novo tópico: Explorando os Limites da IA no Reconhecimento de Conteúdo Gerado por IA

Curioso para saber como tem sido a experiência dos usuários com este método?

1 curtida

Comecei a testá-lo agora mesmo, e ele já fez um bom trabalho (por enquanto, escolhi aplicar apenas uma tag oculta para validar que as coisas funcionarão corretamente, em vez de enviar as coisas para a fila de revisão imediatamente).

Mas tenho um pequeno acompanhamento/esclarecimento: seria possível para a integração acessar consultas personalizadas com saídas, como um grupo de posts de exemplo, para serem usados como dados de contexto?

Mais concretamente, gostaria de alimentá-lo com todos os posts de spam anteriores com base nas bandeiras que foram acordadas e resultaram na exclusão do post.

1 curtida

No momento, suportamos apenas uma única mensagem do sistema.

Acho que podemos fazer um acompanhamento onde você pode fornecer N exemplos de coisas a não sinalizar e N exemplos de coisas a sinalizar. Isso potencialmente poderia aumentar a precisão.

Talvez fazer um tópico de recurso dedicado sobre isso?

1 curtida

Vou tentar reunir mais pensamentos sobre isso primeiro. Executá-lo na última semana foi bastante bem-sucedido, mas ainda estou encontrando alguns pequenos aborrecimentos, como não conseguir excluir rapidamente mensagens privadas (por exemplo, ele muitas vezes acha que as interações do tutorial do Discobot são suspeitas; editei o prompt para não considerar essas, mas os logs de IA indicam que a detecção não conhece o contexto e considera apenas o conteúdo da própria postagem).

2 curtidas

Isso não parece muito certo… Não tenho certeza de qual era a instrução pretendida aqui? Talvez ‘Habilitar IA e habilitar Automação’?

1 curtida

Fiz a edição aqui

2 curtidas

Tenho curiosidade, existe uma maneira de mover respostas para um novo tópico, em vez do tópico inteiro? Poderia ser um tópico legítimo, mas um spammer entra e posta uma resposta de spam. Pelo que vejo, está movendo o tópico inteiro, não essa resposta específica.
Enquanto estou nisso, qual é a diferença entre isso e o detector de spam do Discourse AI?

Você poderia explicar isso melhor com um exemplo?

FYI: Você deve ser capaz de marcar a opção Flag post que deve sinalizar apenas a postagem de “spam”.

1 curtida

Claro. Por exemplo, digamos que, em um fórum de suporte, um spammer poste uma resposta de spam em um tópico existente sobre os problemas que ele está enfrentando. O OP e as pessoas que respondem não são o mesmo usuário que o spammer. Se eu entendi corretamente, o AI Triage ocultará todo o tópico e sinalizará a postagem. Em vez disso, a postagem de spam poderia ser movida para um tópico específico, em uma categoria disponível para administradores?

Eu estava pensando nisso enquanto lia esta postagem.

Sim, estou fazendo isso atualmente para o detector de discurso de ódio usando o AI Triage.

Lol, como eu pude perder isso :laughing:

1 curtida

O AI Spam simplesmente ocultará a postagem, podemos provavelmente adicionar essa opção ao triage também.

2 curtidas