Plugin da API de Moderação

:information_source: Resumo O Plugin Discourse Moderation API aprimora seu fórum Discourse com recursos de moderação automatizada. Ele utiliza o motor de detecção comprovado da Moderation API e inclui um painel de moderação aprimorado para aumentar a eficiência dos moderadores em 10 vezes.
:hammer_and_wrench: Link do Repositório https://github.com/moderation-api/discourse-moderation-api
:open_book: Guia de Instalação Como instalar plugins no Discourse

:hammer_and_wrench: Funcionalidades em Destaque

A Moderation API é uma solução completa de moderação.

Ações de Moderação Automatizada

  • Marque automaticamente comentários e tópicos.
  • Escolha entre mais de 20 modelos pré-construídos para casos de uso comuns ou crie o seu.
  • Detecte toxicidade, conteúdo NSFW, PII, spam, autopromoção, atividades ilegais e muito mais.
  • Defina limites personalizados para marcação automatizada.

Detecção Potencializada por LLM

  • Integre as diretrizes da sua comunidade a um agente de IA.
  • Utilize a IA como a primeira linha de defesa ou como um moderador confiável para marcar comentários.

Treinamento de Modelos Personalizados

  • Desenvolva seus próprios modelos de IA para obter a máxima precisão na moderação.
  • Use ações de moderador como feedback para treinar e refinar modelos.
  • Aprimore continuamente a marcação automatizada por meio de aprendizado de máquina.

Fila de Revisão Aprimorada

  • Opcionalmente, use a fila de revisão da Moderation API para uma experiência de moderação simplificada e moderna.
  • Crie várias filas de revisão adaptadas para diferentes idiomas, categorias ou propósitos específicos.
  • Desenvolva fluxos de trabalho de moderação para escalonamento de conteúdo.
  • Atribua moderadores a filas de revisão específicas para gerenciamento eficiente.

Análise do Painel

  • Monitore as atividades e resultados da IA por meio do painel da Moderation API.
  • Obtenha insights sobre problemas comuns e identifique áreas para melhoria.

Integração Transparente

  • Integra-se facilmente com os fluxos de trabalho e funções de usuário existentes do Discourse.
  • Escolha entre a fila de revisão do Discourse ou a fila de revisão da Moderation API.
  • Utiliza ações de moderação integradas do Discourse.

:rocket: Configuração

Siga estas etapas para configurar o Plugin Moderation API:

Criar um Projeto na Moderation API

  • Navegue até o seu Painel da Moderation API.
  • Crie um novo projeto e selecione os rótulos que deseja detectar.

(Opcional) Testar e Ajustar Limites

  • Use os controles deslizantes de limite para determinar o rigor da sua moderação.
  • Teste a resposta da API no playground.

Definir Chave de API

  • Localize sua chave de API em “Integrar” no painel do seu projeto.
  • No painel de Administração do Discourse, navegue até Configurações > Moderation API.
  • Cole sua chave de API no campo “Moderation API Key”.
  • Salve as alterações.

Ativar o Plugin

  • Selecione o comportamento de marcação (veja as opções abaixo). Você pode começar com “nada” para testar o plugin sem realizar nenhuma ação.
  • Pressione “enable plugin” para começar a analisar novas postagens. O plugin não analisa nenhum conteúdo pré-existente.

(Opcional) Adicionar as Diretrizes da Sua Comunidade

  • Vá para o “Model Studio” na Moderation API.
  • Crie um novo agente de IA.
  • Incorpore suas diretrizes como regras para o agente. Se você tiver diretrizes extensas, considere criar vários agentes.
  • Adicione o agente ao seu projeto.


:triangular_flag: Comportamentos de Marcação

O plugin oferece quatro comportamentos de marcação diferentes, determinando as ações tomadas quando a Moderation API marca um comentário.

1. Marcar (Comportamento Padrão)

O bot do plugin adiciona uma marcação “Inapropriado” ao comentário, seguindo a configuração do seu Discourse. Normalmente, isso significa que o comentário aparece na fila de revisão, mas pode não ser imediatamente oculto até que um moderador o aprove ou usuários adicionais marquem o comentário. Revise suas configurações relacionadas a marcações no Discourse para personalização.

2. Fila para Revisão

O comentário é instantaneamente oculto e adicionado à fila de revisão para que os moderadores aprovem ou rejeitem.

3. Bloquear Postagem

O comentário nunca é postado. O autor recebe uma mensagem de erro indicando que o comentário foi bloqueado pelo sistema de moderação automatizada. (Você pode personalizar a mensagem de erro.)

4. Nada

Nenhuma ação imediata é tomada. O comentário é analisado e aparecerá no painel da Moderation API se for marcado. Esta opção é útil para testar a Moderation API antes de ativar totalmente o plugin.


:white_check_mark: A Fazer

  • Habilitar ações da fila de revisão da Moderation API para remover conteúdo do Discourse.
  • Sincronizar ações da fila de revisão do Discourse com a fila de revisão na Moderation API.
  • Permitir projetos de moderação separados para diferentes categorias.
  • Marcar conteúdo usando uma categoria de marcação Discourse selecionada (atualmente usando “Inapropriado”).

:wrench: Configurações

Abaixo está uma tabela das configurações disponíveis para o Plugin Moderation API juntamente com suas descrições:

Configuração Descrição
Ativar Moderation API Controla se o plugin está ativo.
Padrão: Desativado
Comportamento de Marcação O que acontece quando o conteúdo é marcado:
• Fila para revisão
• Marcar postagem
• Bloquear postagem
• Nada
Padrão: Marcar postagem
Mensagem de Bloqueio A mensagem exibida aos usuários quando sua postagem é bloqueada.
Padrão: “Sua postagem foi bloqueada pelo nosso sistema de moderação.”
Notificar na Fila de Postagens Enviar notificações quando postagens são enfileiradas para revisão.
Padrão: Ativado
Verificar Mensagens Privadas Aplicar moderação a mensagens privadas.
Padrão: Desativado
Grupos a Ignorar Grupos de usuários que ignoram as verificações de moderação.
Padrão: Nenhum
Categorias a Ignorar Categorias do fórum que ignoram as verificações de moderação.
Padrão: Nenhuma
Chave de API Sua chave de autenticação da Moderation API.
Padrão: Nenhum

:credit_card: Assinaturas

Você pode instalar o plugin imediatamente e aproveitar nosso nível gratuito ou teste de 30 dias. Para recursos estendidos e limites de uso mais altos, explore nossas opções de assinatura.


:books: Documentação


:hammer_and_wrench: Suporte



Aviso Legal: Embora o Plugin Discourse Moderation API aprimore significativamente os recursos de moderação, é essencial revisar e entender as implicações da moderação automatizada. Sempre garanta transparência com sua comunidade em relação ao uso de IA nos processos de moderação.

Nota de Privacidade: Este plugin processa conteúdo gerado pelo usuário para aplicar regras de moderação. Garanta a conformidade com suas políticas de privacidade e informe os usuários sobre as práticas de processamento de dados.


10 curtidas

Do README do repositório do GitHub:

Você pode instalar o plugin imediatamente e usar nosso plano gratuito ou um teste de 30 dias.

Não consegui encontrar informações sobre um plano gratuito no site ou na documentação da API. Quais são as limitações?

Além disso, o plano pay-as-you-go (pague pelo que usar) só está disponível quando excedemos a cota de um plano pago?

2 curtidas

O nível gratuito está disponível para projetos de hobby. Sinta-se à vontade para enviar uma mensagem para se configurar.

Correto, o PAYG (pague pelo que usar) é uma opção para planos pagos ao exceder a cota incluída.

3 curtidas

Adoraria ver mais ferramentas de moderação de IA! Você poderia esclarecer o que isso oferece que o triagem de IA do Discourse não oferece? Obrigado!

1 curtida

Sim, claro. Isso provavelmente poderia ser mais claro na postagem original.

Primeiro, deixe-me mencionar que a API de Moderação oferece acesso a uma plataforma de moderação completa, onde o mecanismo de detecção é apenas uma parte dela. Essencialmente, você estará fazendo parceria com uma empresa que tem anos de experiência na solução de moderação de conteúdo.

Mas se focarmos apenas na detecção/triagem:

  1. Melhor precisão: Você pode escolher entre mais de 20 classificadores pré-construídos para lidar com os casos de uso mais comuns. Isso torna muito fácil começar, e estamos constantemente aprimorando nossos modelos para que você não precise se preocupar com o que há de mais novo e avançado.
    Geralmente, você obterá resultados melhores e mais robustos com um classificador bem treinado em comparação com um LLM com engenharia de prompt.

  2. Consciência de contexto: O mecanismo de detecção da API de Moderação também pode analisar mensagens anteriores em um tópico e o histórico de um autor para fornecer uma análise melhor. Acho que isso é uma grande melhoria em comparação com a triagem integrada.

  3. LLMs Especializados: Acredito que o Discourse permite que você escolha entre alguns modelos como gpt-4o e claude, onde a API de Moderação também suporta LLMs treinados especificamente para moderação de conteúdo, como Llama-guard e outros que virão. Nossos LLMs também vêm pré-configurados com prompts para que tenham o melhor desempenho com base em nossos dados.

  4. Treinar modelos personalizados: Uma vez conectado à API de Moderação, você também pode treinar seus próprios modelos com seus dados específicos.

  5. Conformidade: Hospedamos nossos modelos em nossos próprios servidores e podemos fornecer DPAs personalizados para empresas onde conformidade e regulamentação são uma prioridade. Em alguns casos, podemos até fornecer soluções on-premise.

  6. Custo: A melhor parte é que podemos fazer isso de forma mais barata em grandes volumes e, em qualquer caso, fornecer taxas fixas para custos previsíveis.

Espero que isso tenha ficado mais claro. Configurar um projeto oferece muitas opções e flexibilidade em comparação com apenas escrever um prompt, então eu diria que é apenas uma solução muito mais poderosa e especializada.

2 curtidas

Ao instalar o plugin, ao reconstruir o aplicativo, recebo este erro na reconstrução:

Gem::LoadError: não é possível ativar faraday-2.12.2, já ativado faraday-2.13.4
… /plugins/discourse-moderation-api/plugin.rb:11:in `activate!’

Logs completos: er-js/faker-10.0.0 * [new branch] dependabot/npm_and_yarn/fortawesome - Pastebin.com

Daniel, obrigado por experimentar o plugin.

Estou analisando isso agora. Enquanto isso, será um pouco mais fácil ajudar se você entrar em contato com support@moderationapi.com.

Isso deve ter sido corrigido na versão mais recente do plugin. Acredito que você possa simplesmente reconstruir seu aplicativo agora.