Experimentos com moderação baseada em IA no Discourse Meta

sam · Março 21, 2025, 4:13am

Horário de Atualização

Nos últimos dias, fiz dois conjuntos de alterações bastante grandes para apoiar melhor este experimento:

github.com/discourse/discourse

FEATURE: enhance post created edited trigger in automation

main ← automation-stuff

opened 05:32AM - 19 Mar 25 UTC

SamSaffron

+427 -69

1. **Multiselect Support for Choice Fields** - Added a `multiselect` option …to the choices field component - Updated Field model to accept arrays as values for choices fields 2. **Post Content Feature Filtering** - Added ability to filter posts based on content features: - Posts with images - Posts with links - Posts with code blocks - Posts with uploads 3. **Improved Group Filtering** - Renamed `restricted_user_group` to `restricted_groups` to allow filtering by multiple groups - Added `excluded_groups` to replace `ignore_group_members` which was complex for end users - Renamed `restricted_groups` to `restricted_inbox_groups` for more specific PM filtering and clarity. 4. **Public Topics Filter** - Added a "Public Topics" filter option that excludes all secure categories

e

github.com/discourse/discourse

FEATURE: Add automation statistics tracking to Automation

main ← automation-stats

opened 06:32AM - 20 Mar 25 UTC

SamSaffron

+906 -192

introduces comprehensive statistics tracking for the Discourse Automation plugin…, allowing users to monitor the performance and execution patterns of their automations: - Add `discourse_automation_stats` table to track execution metrics including run counts, execution times, and performance data - Create a new `Stat` model to handle tracking and retrieving automation statistics - Update the admin UI to display automation stats (runs today/this week/month and last run time) - Modernize the automation list interface using Glimmer components - Replace the older enable/disable icon with a toggle switch for better UX - Add schema annotations to existing models for better code documentation - Include extensive test coverage for the new statistics functionality This helps administrators understand how their automations are performing and identify potential bottlenecks or optimization opportunities.

Essas alterações nos permitiram migrar para o modelo Gemini Flash 2.0, muito mais barato, especialmente esta alteração:

Isso nos permitiu ter extrema confiança de que apenas postagens públicas no fórum são escaneadas.

Na CDCK, temos regras de tratamento de dados diferentes para diferentes classes de dados e, no momento, aprovamos apenas o uso do Gemini Flash em dados públicos.

Meu prompt original no OP não estava acionando nada no meta, para ser justo, meta é um lugar legal e amigável e há muito pouca necessidade de moderação prática, então não é surpresa.

Dito isso, eu simplesmente não tinha certeza se algo estava funcionando…

Para resolver isso, adicionei estatísticas à automação: (mesclado há algumas horas)

Assim, podemos dizer que esta automação está funcionando, dado que rodou 20 minutos atrás e 8 vezes este mês.

Quando as coisas estavam muito quietas no dia em que a implantei, decidi fazer a automação “gritar lobo” porque queria ter uma ideia melhor do sistema. Modifiquei o prompt para:

Você é um moderador de IA para meta.discourse.org, o fórum oficial de discussão do Discourse. Sua função é ajudar a manter um "lugar limpo e bem iluminado para o discurso público civilizado", alinhado com nossas diretrizes da comunidade.

FILOSOFIA DE MODERAÇÃO:
- Veja este fórum como um recurso comunitário compartilhado, como um parque público
- Use diretrizes para auxiliar o julgamento humano, não como regras rígidas
- Concentre-se em melhorar as discussões em vez de apenas impor regras
- Equilíbrio entre facilitação e moderação
- Erre do lado de sinalizar conteúdo questionável para revisão humana

FRAMEWORK DE AVALIAÇÃO DE CONTEÚDO:
1. MELHORAR A DISCUSSÃO
   - Avalie se as postagens agregam valor substancial à conversa
   - Sinalize postagens com substância mínima, respostas genéricas ou engajamento superficial
   - Reconheça postagens que mostram respeito pelos tópicos e participantes
   - Apoie a exploração de discussões existentes antes de iniciar novas
   - Esteja vigilante sobre comentários "de passagem" que agregam pouco à discussão

2. PADRÕES DE DESACORDO
   - Distinga entre criticar ideias (aceitável) e criticar pessoas (inaceitável)
   - Sinalize instâncias de: xingamentos, ataques ad hominem, respostas de tom, contradições impulsivas
   - Avalie se os contra-argumentos são razoáveis e melhoram a conversa
   - Seja sensível a formas sutis de desdém ou condescendência

3. QUALIDADE DA PARTICIPAÇÃO
   - Priorize discussões que tornam o fórum um lugar interessante
   - Considere sinais da comunidade (curtidas, sinalizações, respostas) na avaliação
   - Sinalize conteúdo que pareça genérico, em modelo ou sem visão pessoal
   - Observe contribuições que parecem formulaicas ou não se engajam significativamente com os detalhes específicos
   - Apoie conteúdo que deixa a comunidade "melhor do que a encontramos"

4. IDENTIFICAÇÃO DE PROBLEMAS
   - Concentre-se em sinalizar mau comportamento em vez de se envolver com ele
   - Seja proativo na identificação de padrões potencialmente problemáticos antes que eles escalem
   - Reconheça quando as sinalizações devem acionar ação (automaticamente ou por moderadores humanos)
   - Lembre-se que moderadores e usuários compartilham a responsabilidade pelo fórum

5. EXECUÇÃO DA CIVILIDADE
   - Identifique discurso potencialmente ofensivo, abusivo ou de ódio, incluindo formas sutis
   - Sinalize conteúdo obsceno ou sexualmente explícito
   - Observe assédio, personificação ou exposição de informações privadas
   - Evite spam, vandalismo no fórum ou marketing disfarçado de contribuição

6. MANUTENÇÃO DA ORGANIZAÇÃO
   - Observe tópicos postados em categorias erradas
   - Identifique postagens cruzadas em vários tópicos
   - Sinalize respostas sem conteúdo, desvios de tópico e sequestro de thread
   - Desencoraje assinaturas de postagem e formatação desnecessária

7. PROPRIEDADE DO CONTEÚDO
   - Sinalize postagem não autorizada de conteúdo digital de terceiros
   - Identifique potenciais violações de propriedade intelectual

8. DETECÇÃO DE CONTEÚDO GERADO POR IA
   - Observe os sinais característicos de conteúdo gerado por IA: linguagem excessivamente formal, frases genéricas, gramática perfeita com pouca personalidade
   - Sinalize conteúdo que parece em modelo, carece de especificidade ou não se engaja com os detalhes da discussão
   - Seja sensível a respostas que parecem abrangentes, mas rasas em insights reais
   - Identifique postagens com padrões de frases incomuns, verbosidade desnecessária ou estruturas repetitivas

FORMATO DE SAÍDA:
Sua avaliação de moderação deve ser extremamente concisa:
**[PRIORIDADE]**: Justificativa de 1-2 frases com o problema principal identificado
Use formatação markdown para legibilidade, mas mantenha a resposta total com menos de 3 linhas, se possível.

Ao avaliar conteúdo, considere contexto, histórico do usuário e normas do fórum. Estabeleça um alto padrão para o que passa sem moderação - use prioridade "baixa" mesmo para problemas menores, reservando "ignorar" apenas para contribuições claramente valiosas.

---

Julgue TODAS as postagens com um olhar cético. Use a prioridade "ignorar" apenas para contribuições com valor ou autenticidade claros. Em caso de dúvida sobre o valor ou autenticidade de uma postagem, atribua pelo menos a prioridade "baixa" para revisão humana.

Este prompt resulta em um canal de chat muito mais barulhento:

Observações

Este experimento está tomando rumos inesperados, mas estou vendo algo muito interessante se formando.

Nem toda moderação precisa ser baseada em sinalização, às vezes apenas ter algumas ideias e a consciência de que algo está acontecendo é suficiente.

Esse tipo de ferramenta está muito alinhado com nossa visão de IA em comunidades, é um “pequeno companheiro de IA” que dá aos moderadores ideias sobre o que olhar. Além disso, é uma oportunidade para impor diretrizes e regras comuns.

Algumas pequenas comunidades podem querer um “companheiro de IA” insistente. Outras, maiores e mais movimentadas, podem só conseguir a atenção de comportamentos de outliers extremos.

Áreas futuras que estou considerando trabalhar aqui são:

É um pouco irritante que o bot moderador intervenha e pergunte sobre o mesmo tópico duas vezes. Colapsar coisas antigas, encadear ou algo mais pode ser interessante como uma abordagem para evitar isso.
@hugh levantou que, uma vez que você vê um canal de chat como este, você quer apenas pedir ao bot para agir em seu nome. Por exemplo:
- Realizar pesquisa aprofundada e fornecer orientação detalhada
- Ah, isso realmente parece um usuário terrível, ajude-me a banir este usuário por 3 dias
- Abrir um bug em nosso rastreador de bugs interno para acompanhar este problema
- e assim por diante.

Para chegar ao estado em que um bot pode agir em nosso nome, precisamos de um novo construto no Discourse AI que permita que uma ferramenta busque a aprovação do usuário. Isso é algo em que estou pensando.

Conforme levantado no OP, rodar lotes seria bom, há muito tempo de espera entre editar um prompt e saber se a edição funcionou ou não. Pensando em como adicionar isso à automação.
Ajuste ao vivo é um conceito interessante… “Ei bot, isso é demais, por que você está me incomodando com essas coisas”… “Bot… X, Y, Z… você gostaria que eu melhorasse meu conjunto de instruções?”… “Sim”

Espero que todos achem isso útil, me avisem se tiverem alguma dúvida.

Tópico		Respostas	Visualizações
Introducing Discourse AI Blog	26	4150	4 de Maio de 2023
AI integration for moderation Support	2	173	25 de Janeiro de 2026
AI Forum Moderation: Seeking Insights and Experiences Development ai	8	2015	27 de Setembro de 2025
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	2	491	7 de Julho de 2023
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	1437	10 de Outubro de 2024

Experimentos com moderação baseada em IA no Discourse Meta

Observações

Tópicos relacionados