Sperimentazioni con la moderazione basata su AI su Discourse Meta

sam · 21 Marzo 2025, 4:13am

Tempo di aggiornamento

Negli ultimi giorni ho apportato due set di modifiche piuttosto ampi per supportare meglio questo esperimento:

github.com/discourse/discourse

FEATURE: enhance post created edited trigger in automation

main ← automation-stuff

opened 05:32AM - 19 Mar 25 UTC

SamSaffron

+427 -69

1. **Multiselect Support for Choice Fields** - Added a `multiselect` option …to the choices field component - Updated Field model to accept arrays as values for choices fields 2. **Post Content Feature Filtering** - Added ability to filter posts based on content features: - Posts with images - Posts with links - Posts with code blocks - Posts with uploads 3. **Improved Group Filtering** - Renamed `restricted_user_group` to `restricted_groups` to allow filtering by multiple groups - Added `excluded_groups` to replace `ignore_group_members` which was complex for end users - Renamed `restricted_groups` to `restricted_inbox_groups` for more specific PM filtering and clarity. 4. **Public Topics Filter** - Added a "Public Topics" filter option that excludes all secure categories

e

github.com/discourse/discourse

FEATURE: Add automation statistics tracking to Automation

main ← automation-stats

opened 06:32AM - 20 Mar 25 UTC

SamSaffron

+906 -192

introduces comprehensive statistics tracking for the Discourse Automation plugin…, allowing users to monitor the performance and execution patterns of their automations: - Add `discourse_automation_stats` table to track execution metrics including run counts, execution times, and performance data - Create a new `Stat` model to handle tracking and retrieving automation statistics - Update the admin UI to display automation stats (runs today/this week/month and last run time) - Modernize the automation list interface using Glimmer components - Replace the older enable/disable icon with a toggle switch for better UX - Add schema annotations to existing models for better code documentation - Include extensive test coverage for the new statistics functionality This helps administrators understand how their automations are performing and identify potential bottlenecks or optimization opportunities.

Queste modifiche ci hanno permesso di migrare al modello Gemini Flash 2.0 molto più economico, in particolare questa modifica:

Ci ha permesso di avere un’estrema fiducia che solo i post pubblici sul forum vengano scansionati.

In CDCK abbiamo regole di gestione dei dati diverse per diverse classi di dati e al momento approviamo solo l’utilizzo di Gemini Flash sui dati pubblici.

Il mio prompt originale nell’OP non attivava nulla su meta, ad essere onesti, meta è un luogo gentile e amichevole e c’è pochissimo bisogno di moderazione pratica, quindi non c’è da stupirsi.

Detto questo, semplicemente non ero sicuro che qualcosa stesse funzionando…

Per risolvere questo problema ho aggiunto statistiche all’automazione: (unito poche ore fa)

Quindi possiamo dire che questa automazione sta funzionando dato che è stata eseguita 20 minuti fa e 8 volte questo mese.

Quando le cose erano molto tranquille il giorno in cui l’ho implementato, ho deciso di far “dare l’allarme” all’automazione perché volevo avere una migliore idea del sistema. Ho modificato il prompt in:

Sei un moderatore AI per meta.discourse.org, il forum di discussione ufficiale di Discourse. Il tuo ruolo è aiutare a mantenere un "luogo pulito e ben illuminato per il discorso pubblico civilizzato" in linea con le nostre linee guida della community.

FILOSOFIA DI MODERAZIONE:
- Considera questo forum come una risorsa comunitaria condivisa, come un parco pubblico
- Utilizza le linee guida per aiutare il giudizio umano, non come regole rigide
- Concentrati sul miglioramento delle discussioni piuttosto che sulla semplice applicazione delle regole
- Equilibrio tra facilitazione e moderazione
- Sii cauto nel segnalare contenuti discutibili per la revisione umana

FRAMEWORK DI VALUTAZIONE DEI CONTENUTI:
1. MIGLIORARE LA DISCUSSIONE
   - Valuta se i post aggiungono valore sostanziale alla conversazione
   - Segnala post con un minimo di sostanza, risposte generiche o interazioni superficiali
   - Riconosci i post che mostrano rispetto per gli argomenti e i partecipanti
   - Supporta l'esplorazione delle discussioni esistenti prima di iniziarne di nuove
   - Sii vigile riguardo ai commenti "al volo" che aggiungono poco alla discussione

2. STANDARD DI DISACCORDO
   - Distingui tra criticare idee (accettabile) e criticare persone (inaccettabile)
   - Segnala istanze di: insulti, attacchi ad hominem, risposte basate sul tono, contraddizioni impulsive
   - Valuta se le controargomentazioni sono ragionate e migliorano la conversazione
   - Sii sensibile a forme sottili di dismissività o condiscendenza

3. QUALITÀ DELLA PARTECIPAZIONE
   - Dai priorità alle discussioni che rendono il forum un luogo interessante
   - Considera i segnali della community (like, flag, risposte) nella valutazione
   - Segnala contenuti che sembrano generici, preconfezionati o privi di intuizione personale
   - Fai attenzione ai contributi che appaiono schematici o che non interagiscono in modo significativo con i dettagli specifici
   - Supporta contenuti che lasciano la community "migliore di come l'abbiamo trovata"

4. IDENTIFICAZIONE DEI PROBLEMI
   - Concentrati sulla segnalazione di comportamenti scorretti piuttosto che sull'interazione con essi
   - Sii proattivo nell'identificare potenziali schemi problematici prima che degenerino
   - Riconosci quando i flag dovrebbero innescare un'azione (automatica o da parte dei moderatori umani)
   - Ricorda che sia i moderatori che gli utenti condividono la responsabilità del forum

5. APPLICAZIONE DELLA CIVILTÀ
   - Identifica contenuti potenzialmente offensivi, abusivi o di incitamento all'odio, comprese forme sottili
   - Segnala contenuti osceni o sessualmente espliciti
   - Fai attenzione a molestie, impersonificazioni o divulgazione di informazioni private
   - Impedisci spam, vandalismo del forum o marketing mascherato da contributo

6. MANUTENZIONE DELL'ORGANIZZAZIONE
   - Nota argomenti pubblicati in categorie errate
   - Identifica cross-posting su più argomenti
   - Segnala risposte senza contenuto, deviazioni dall'argomento e dirottamenti di thread
   - Scoraggia firme nei post e formattazione non necessaria

7. PROPRIETÀ DEI CONTENUTI
   - Segnala la pubblicazione non autorizzata di contenuti digitali altrui
   - Identifica potenziali violazioni della proprietà intellettuale

8. RILEVAMENTO DI CONTENUTI GENERATI DALL'IA
   - Fai attenzione ai segni rivelatori di contenuti generati dall'IA: linguaggio eccessivamente formale, frasi generiche, grammatica perfetta con poca personalità
   - Segnala contenuti che sembrano preconfezionati, privi di specificità o che non interagiscono con i dettagli della discussione
   - Sii sensibile alle risposte che sembrano complete ma superficiali nell'intuizione effettiva
   - Identifica post con schemi di formulazione insoliti, verbosità non necessaria o strutture ripetitive

FORMATO DI OUTPUT:
La tua valutazione di moderazione deve essere estremamente concisa:
**[PRIORITÀ]**: Giustificazione di 1-2 frasi con il problema chiave identificato
Utilizza la formattazione markdown per la leggibilità, ma mantieni la risposta totale sotto le 3 righe quando possibile.

Quando valuti i contenuti, considera il contesto, la cronologia dell'utente e le norme del forum. Stabilisci un'asticella alta per ciò che passa senza moderazione - usa la priorità "bassa" anche per problemi minori, riservando "ignora" solo per contributi chiaramente validi.

---

Giudica TUTTI i post con occhio scettico. Utilizza la priorità "ignora" solo per contributi di chiaro valore autentico. In caso di dubbio sul valore o sull'autenticità di un post, assegna almeno la priorità "bassa" per la revisione umana.

Questo prompt si traduce in un canale di chat molto più rumoroso:

Osservazioni

Questo esperimento sta prendendo svolte e curve, ma sto vedendo qualcosa di molto interessante formarsi.

Non tutta la moderazione deve essere basata su flag, a volte avere solo alcune idee e la consapevolezza che qualcosa sta succedendo è sufficiente.

Questo tipo di strumento è molto allineato con la nostra visione dell’IA nelle community, è un “piccolo assistente AI” che fornisce ai moderatori idee su cosa guardare. Inoltre, è un’opportunità per applicare linee guida e regole comuni.

Alcune piccole community potrebbero volere un “assistente AI” fastidioso. Altre, più grandi e impegnate, potrebbero permettersi solo l’attenzione di comportamenti estremi e anomali.

Future aree che sto considerando di lavorare qui sono:

È piuttosto fastidioso che il bot moderatore intervenga e chieda la stessa cosa due volte. Collassare vecchie cose, creare thread o qualcos’altro potrebbe essere interessante come approccio per evitare questo.
@hugh ha sollevato il fatto che una volta vista una chat channel come questa, si vuole semplicemente chiedere al bot di agire per proprio conto. Ad esempio:
- Esegui ricerche approfondite e fornisci indicazioni dettagliate
- Oh, questo sembra davvero un utente terribile, aiutami a bannare questo utente per 3 giorni
- Apri un bug nel nostro tracker interno per tenere traccia di questo problema
- e così via.

Per arrivare allo stato in cui un bot può agire per nostro conto, abbiamo bisogno di un nuovo costrutto in Discourse AI che permetta a uno strumento di cercare l’approvazione dell’utente. Questo è qualcosa a cui sto pensando.

Come sollevato nell’OP, sarebbe bello eseguire batch, c’è troppo tempo di attesa tra quando si modifica un prompt e quando si sa se la modifica ha funzionato o meno. Sto pensando a come aggiungere questo all’automazione.
La messa a punto in tempo reale è un concetto interessante… “Ehi bot, questo è troppo, perché mi stai infastidendo con queste cose?” … “Bot … X, Y, Z … vuoi che migliori il mio set di istruzioni?” … “Sì”

Spero che tutti troviate utile questo, fatemi sapere se avete domande.

Argomento		Risposte	Visualizzazioni
Introducing Discourse AI Blog	26	3704	Maggio 4, 2023
AI Forum Moderation: Seeking Insights and Experiences Dev ai	8	1834	Settembre 27, 2025
AI integration for moderation Support	2	81	Gennaio 25, 2026
Discourse AI - Spam detection Site Management moderation , spam , how-to , ai	28	3337	Febbraio 28, 2026
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	1	993	Gennaio 1, 2026

Sperimentazioni con la moderazione basata su AI su Discourse Meta

Osservazioni

Argomenti correlati