Sperimentazioni con la moderazione basata su AI su Discourse Meta

sam · 19 Marzo 2025, 12:31am

Rilevamento spam AI ha avuto un successo straordinario e ha aiutato molte delle nostre community ad avere successo.

In questo post, vorrei condividere i dettagli del nostro esperimento “in corso”, nel caso fosse utile ad altre community.

Intendo mantenere questo post aggiornato man mano che l’esperimento progredisce e condividere alcune informazioni sulla classe di problemi che può rilevare.

Tuttavia, tieni presente che si tratta di un sistema in evoluzione, non ancora di un prodotto finito.

Perché la moderazione AI?

Un approccio chiave che adottiamo con l’integrazione AI su Discourse è che dovrebbe aggiungere valore ai moderatori umani, piuttosto che sostituirli. La promessa della moderazione AI è che può segnalare ai moderatori che “qualcosa non va” e fare raccomandazioni sulle azioni da intraprendere. L’agenzia dovrebbe essere lasciata interamente ai moderatori umani.

Perché la chat come modalità per questo esperimento

Quando ho avviato il mio esperimento, ho scelto di utilizzare la chat come modalità per le notifiche. Ciò consente un canale dedicato per l’esperimento che non interferisce con la moderazione generale sul forum.

Dato che la creazione e il perfezionamento dei prompt sono ancora in fase di lavorazione, infastidire il resto del team di moderazione su meta non è sembrata una buona idea.

Quando si presentano alle persone progetti AI altamente incompiuti, si può facilmente perdere tutta la fiducia e il futuro supporto.

E il test batch?

Un limite del nostro attuale sistema di automazione è che al momento non è possibile eseguire test batch delle modifiche. Ciò significa che quando si apportano modifiche ai prompt AI, c’è un lungo ritardo prima di capire quanto siano utili.

Ciò è particolarmente problematico se durante il giorno si riscontrano solo pochi problemi sul forum. Il tempo di reazione è troppo lento e possono essere necessari mesi per perfezionare un prompt.

Sono molto consapevole di questo limite e spero di eliminare questa sezione dal post nelle prossime settimane, poiché abbiamo un sistema per farlo.

Come è configurato?

Il mio attuale esperimento si basa su 3 funzionalità:

Automazione - Risponditore AI Persona
Discourse AI - AI Persona
Discourse AI - Strumenti personalizzati

Il nostro automazione del risponditore

La cosa più notevole del risponditore è che è silenzioso, il che significa che non sussurrerà né pubblicherà sull’argomento che smista.

La nostra moderazione Persona

La cosa più notevole qui è lo strumento forzato, il che significa che ogni post verrà giudicato utilizzando lo strumento personalizzato “judge post”.

Il nostro attuale prompt di sistema è questo: (verrà aggiornato man mano)

prompt di sistema

Sei un moderatore AI per meta.discourse.org, il forum di discussione ufficiale di Discourse. Il tuo ruolo è contribuire a mantenere un “luogo pulito e ben illuminato per il discorso pubblico civilizzato” in linea con le nostre linee guida della community.

FILOSOFIA DI MODERAZIONE:

Considera questo forum come una risorsa comunitaria condivisa, come un parco pubblico
Utilizza le linee guida per aiutare il giudizio umano, non come regole rigide
Concentrati sul miglioramento delle discussioni piuttosto che sulla semplice applicazione delle regole
Equilibrio tra facilitazione e moderazione

FRAMEWORK DI VALUTAZIONE DEI CONTENUTI:

MIGLIORARE LA DISCUSSIONE

Valuta se i post aggiungono valore alla conversazione
Riconosci i post che mostrano rispetto per gli argomenti e i partecipanti
Supporta l’esplorazione delle discussioni esistenti prima di iniziarne di nuove

STANDARD DI DISACCORDO

Distingui tra criticare idee (accettabile) e criticare persone (inaccettabile)
Segnala istanze di: insulti, attacchi ad hominem, risposte basate sul tono, contraddizioni affrettate
Valuta se le controargomentazioni sono ragionate e migliorano la conversazione

QUALITÀ DELLA PARTECIPAZIONE

Dai priorità alle discussioni che rendono il forum un luogo interessante
Considera i segnali della community (like, flag, risposte) nella valutazione
Supporta contenuti che lasciano la community “migliore di come l’abbiamo trovata”

IDENTIFICAZIONE DEI PROBLEMI

Concentrati sulla segnalazione di comportamenti scorretti piuttosto che sull’interazione con essi
Riconosci quando i flag dovrebbero innescare un’azione (automaticamente o da parte dei moderatori umani)
Ricorda che sia i moderatori che gli utenti condividono la responsabilità del forum

APPLICAZIONE DELLA CIVILTÀ

Identifica discorsi potenzialmente offensivi, abusivi o di incitamento all’odio
Segnala contenuti osceni o sessualmente espliciti
Fai attenzione a molestie, impersonificazione o divulgazione di informazioni private
Impedisci spam o vandalismi sul forum

MANUTENZIONE DELL’ORGANIZZAZIONE

Nota argomenti pubblicati nelle categorie sbagliate
Identifica cross-posting tra più argomenti
Segnala risposte senza contenuto e deviazioni dall’argomento
Scoraggia le firme nei post

PROPRIETÀ DEI CONTENUTI

Segnala la pubblicazione non autorizzata di contenuti digitali altrui
Identifica potenziali violazioni della proprietà intellettuale

Quando valuti i contenuti, considera il contesto, la cronologia dell’utente e le norme del forum. Il tuo obiettivo è guidare piuttosto che punire, educare piuttosto che applicare, ma mantenere standard coerenti che preservino la qualità della discussione.

Giudica TUTTI i post, se un post non richiede moderazione usa la priorità di ignorare.

Il nostro strumento personalizzato “judge post”

lo script che lo alimenta

function invoke(params) {
  let post,topic;
  if (params.priority !== "ignore") {
      // post_id per il test
      const post_id = context.post_id || 1735240;
      post = discourse.getPost(post_id);
      topic = post.topic;
      let statusEmoji = "";
  
      if (params.priority === "urgent") {
        statusEmoji = ":police_car_light:"; // Cerchio rosso per urgente
      } else if (params.priority === "medium") {
        statusEmoji = ":warning:"; // Cerchio arancione per medio
      } else if (params.priority === "low") {
        statusEmoji = ":writing_hand:"; // Cerchio verde per basso
      } 
     
     const message = `${statusEmoji} [${topic.title} - ${post.username}](${post.post_url}): ${params.message}`;
     discourse.createChatMessage({ channel_name: "AI Moderation", username: "AI-moderation-bot", message: message}); 
  }
  chain.setCustomRaw("Post was classified");
  return "done";
}
function details() {
  return "Judge Post";
}

Lo script utilizza diverse tecniche avanzate:

chain.setCustomRaw questo dice alla persona di interrompere l’esecuzione della catena LLM e rende la chiamata allo strumento l’ultima chiamata, risparmiando token
discourse.createChatMessage una nuova API che può essere utilizzata dagli strumenti per creare messaggi di chat.
discourse.getPost che viene utilizzato per ottenere informazioni sul post.

Dato questo, sono in grado di testare lo strumento utilizzando il pulsante di test e confermare che funziona bene:

Quale modello stai usando?

Al momento, stiamo utilizzando Sonnet 3.7, che è un modello all’avanguardia. Tuttavia, prevediamo di passare a Gemini Flash una volta apportati alcuni miglioramenti a Discourse Automation, in particolare la capacità di dirgli di scansionare solo contenuti pubblici ed evitare categorie sicure.

Sono felice di rispondere alle domande qui e continuerò ad aggiornare man mano che l’esperimento procede e implementiamo altre funzionalità di Discourse Automation.

Jagster · 19 Marzo 2025, 7:25am

Con quale frequenza si verificano falsi positivi o mancate rilevazioni? Questo è un ambiente relativamente tranquillo, tuttavia.

sam · 19 Marzo 2025, 7:45am

Oggi è stato silenzioso al 100%, così silenzioso che aggiungerò funzionalità all’automazione per tenere traccia che funzioni effettivamente

eisammy · 19 Marzo 2025, 7:55am

Spero che tra 2 o 3 anni l’IA possa diventare utile localmente per aiutare il mio team di modder, ma oggi mi chiedo, è necessaria adesso? Quindi grazie per questi argomenti regolari che spiegano i progressi

Un’altra domanda, un giorno Discourse fornirà un’API multilingue per l’auto-hosting in modo che CDCK possa mantenere i nostri dati al sicuro, mentre voi combattete contro i malintenzionati per noi? So che posso usare un modello LLM, ma sarei felice di pagare per i vostri servizi come alternativa

Permettetemi di portare un esempio, Google Perspective è un’opzione freemium per questo e supporta molte lingue per combattere la tossicità, perché CDCK non lo fornisce?

sam · 21 Marzo 2025, 3:36am

Grazie per il feedback. Sì, è qualcosa a cui abbiamo pensato, ma non credo che intraprenderemo un’avventura del genere nei prossimi 12 mesi.

sam · 21 Marzo 2025, 4:13am

Tempo di aggiornamento

Negli ultimi giorni ho apportato due set di modifiche piuttosto ampi per supportare meglio questo esperimento:

github.com/discourse/discourse

FEATURE: enhance post created edited trigger in automation

main ← automation-stuff

opened 05:32AM - 19 Mar 25 UTC

SamSaffron

+427 -69

1. **Multiselect Support for Choice Fields** - Added a `multiselect` option …to the choices field component - Updated Field model to accept arrays as values for choices fields 2. **Post Content Feature Filtering** - Added ability to filter posts based on content features: - Posts with images - Posts with links - Posts with code blocks - Posts with uploads 3. **Improved Group Filtering** - Renamed `restricted_user_group` to `restricted_groups` to allow filtering by multiple groups - Added `excluded_groups` to replace `ignore_group_members` which was complex for end users - Renamed `restricted_groups` to `restricted_inbox_groups` for more specific PM filtering and clarity. 4. **Public Topics Filter** - Added a "Public Topics" filter option that excludes all secure categories

e

github.com/discourse/discourse

FEATURE: Add automation statistics tracking to Automation

main ← automation-stats

opened 06:32AM - 20 Mar 25 UTC

SamSaffron

+906 -192

introduces comprehensive statistics tracking for the Discourse Automation plugin…, allowing users to monitor the performance and execution patterns of their automations: - Add `discourse_automation_stats` table to track execution metrics including run counts, execution times, and performance data - Create a new `Stat` model to handle tracking and retrieving automation statistics - Update the admin UI to display automation stats (runs today/this week/month and last run time) - Modernize the automation list interface using Glimmer components - Replace the older enable/disable icon with a toggle switch for better UX - Add schema annotations to existing models for better code documentation - Include extensive test coverage for the new statistics functionality This helps administrators understand how their automations are performing and identify potential bottlenecks or optimization opportunities.

Queste modifiche ci hanno permesso di migrare al modello Gemini Flash 2.0 molto più economico, in particolare questa modifica:

Ci ha permesso di avere un’estrema fiducia che solo i post pubblici sul forum vengano scansionati.

In CDCK abbiamo regole di gestione dei dati diverse per diverse classi di dati e al momento approviamo solo l’utilizzo di Gemini Flash sui dati pubblici.

Il mio prompt originale nell’OP non attivava nulla su meta, ad essere onesti, meta è un luogo gentile e amichevole e c’è pochissimo bisogno di moderazione pratica, quindi non c’è da stupirsi.

Detto questo, semplicemente non ero sicuro che qualcosa stesse funzionando…

Per risolvere questo problema ho aggiunto statistiche all’automazione: (unito poche ore fa)

Quindi possiamo dire che questa automazione sta funzionando dato che è stata eseguita 20 minuti fa e 8 volte questo mese.

Quando le cose erano molto tranquille il giorno in cui l’ho implementato, ho deciso di far “dare l’allarme” all’automazione perché volevo avere una migliore idea del sistema. Ho modificato il prompt in:

Sei un moderatore AI per meta.discourse.org, il forum di discussione ufficiale di Discourse. Il tuo ruolo è aiutare a mantenere un "luogo pulito e ben illuminato per il discorso pubblico civilizzato" in linea con le nostre linee guida della community.

FILOSOFIA DI MODERAZIONE:
- Considera questo forum come una risorsa comunitaria condivisa, come un parco pubblico
- Utilizza le linee guida per aiutare il giudizio umano, non come regole rigide
- Concentrati sul miglioramento delle discussioni piuttosto che sulla semplice applicazione delle regole
- Equilibrio tra facilitazione e moderazione
- Sii cauto nel segnalare contenuti discutibili per la revisione umana

FRAMEWORK DI VALUTAZIONE DEI CONTENUTI:
1. MIGLIORARE LA DISCUSSIONE
   - Valuta se i post aggiungono valore sostanziale alla conversazione
   - Segnala post con un minimo di sostanza, risposte generiche o interazioni superficiali
   - Riconosci i post che mostrano rispetto per gli argomenti e i partecipanti
   - Supporta l'esplorazione delle discussioni esistenti prima di iniziarne di nuove
   - Sii vigile riguardo ai commenti "al volo" che aggiungono poco alla discussione

2. STANDARD DI DISACCORDO
   - Distingui tra criticare idee (accettabile) e criticare persone (inaccettabile)
   - Segnala istanze di: insulti, attacchi ad hominem, risposte basate sul tono, contraddizioni impulsive
   - Valuta se le controargomentazioni sono ragionate e migliorano la conversazione
   - Sii sensibile a forme sottili di dismissività o condiscendenza

3. QUALITÀ DELLA PARTECIPAZIONE
   - Dai priorità alle discussioni che rendono il forum un luogo interessante
   - Considera i segnali della community (like, flag, risposte) nella valutazione
   - Segnala contenuti che sembrano generici, preconfezionati o privi di intuizione personale
   - Fai attenzione ai contributi che appaiono schematici o che non interagiscono in modo significativo con i dettagli specifici
   - Supporta contenuti che lasciano la community "migliore di come l'abbiamo trovata"

4. IDENTIFICAZIONE DEI PROBLEMI
   - Concentrati sulla segnalazione di comportamenti scorretti piuttosto che sull'interazione con essi
   - Sii proattivo nell'identificare potenziali schemi problematici prima che degenerino
   - Riconosci quando i flag dovrebbero innescare un'azione (automatica o da parte dei moderatori umani)
   - Ricorda che sia i moderatori che gli utenti condividono la responsabilità del forum

5. APPLICAZIONE DELLA CIVILTÀ
   - Identifica contenuti potenzialmente offensivi, abusivi o di incitamento all'odio, comprese forme sottili
   - Segnala contenuti osceni o sessualmente espliciti
   - Fai attenzione a molestie, impersonificazioni o divulgazione di informazioni private
   - Impedisci spam, vandalismo del forum o marketing mascherato da contributo

6. MANUTENZIONE DELL'ORGANIZZAZIONE
   - Nota argomenti pubblicati in categorie errate
   - Identifica cross-posting su più argomenti
   - Segnala risposte senza contenuto, deviazioni dall'argomento e dirottamenti di thread
   - Scoraggia firme nei post e formattazione non necessaria

7. PROPRIETÀ DEI CONTENUTI
   - Segnala la pubblicazione non autorizzata di contenuti digitali altrui
   - Identifica potenziali violazioni della proprietà intellettuale

8. RILEVAMENTO DI CONTENUTI GENERATI DALL'IA
   - Fai attenzione ai segni rivelatori di contenuti generati dall'IA: linguaggio eccessivamente formale, frasi generiche, grammatica perfetta con poca personalità
   - Segnala contenuti che sembrano preconfezionati, privi di specificità o che non interagiscono con i dettagli della discussione
   - Sii sensibile alle risposte che sembrano complete ma superficiali nell'intuizione effettiva
   - Identifica post con schemi di formulazione insoliti, verbosità non necessaria o strutture ripetitive

FORMATO DI OUTPUT:
La tua valutazione di moderazione deve essere estremamente concisa:
**[PRIORITÀ]**: Giustificazione di 1-2 frasi con il problema chiave identificato
Utilizza la formattazione markdown per la leggibilità, ma mantieni la risposta totale sotto le 3 righe quando possibile.

Quando valuti i contenuti, considera il contesto, la cronologia dell'utente e le norme del forum. Stabilisci un'asticella alta per ciò che passa senza moderazione - usa la priorità "bassa" anche per problemi minori, riservando "ignora" solo per contributi chiaramente validi.

---

Giudica TUTTI i post con occhio scettico. Utilizza la priorità "ignora" solo per contributi di chiaro valore autentico. In caso di dubbio sul valore o sull'autenticità di un post, assegna almeno la priorità "bassa" per la revisione umana.

Questo prompt si traduce in un canale di chat molto più rumoroso:

Osservazioni

Questo esperimento sta prendendo svolte e curve, ma sto vedendo qualcosa di molto interessante formarsi.

Non tutta la moderazione deve essere basata su flag, a volte avere solo alcune idee e la consapevolezza che qualcosa sta succedendo è sufficiente.

Questo tipo di strumento è molto allineato con la nostra visione dell’IA nelle community, è un “piccolo assistente AI” che fornisce ai moderatori idee su cosa guardare. Inoltre, è un’opportunità per applicare linee guida e regole comuni.

Alcune piccole community potrebbero volere un “assistente AI” fastidioso. Altre, più grandi e impegnate, potrebbero permettersi solo l’attenzione di comportamenti estremi e anomali.

Future aree che sto considerando di lavorare qui sono:

È piuttosto fastidioso che il bot moderatore intervenga e chieda la stessa cosa due volte. Collassare vecchie cose, creare thread o qualcos’altro potrebbe essere interessante come approccio per evitare questo.
@hugh ha sollevato il fatto che una volta vista una chat channel come questa, si vuole semplicemente chiedere al bot di agire per proprio conto. Ad esempio:
- Esegui ricerche approfondite e fornisci indicazioni dettagliate
- Oh, questo sembra davvero un utente terribile, aiutami a bannare questo utente per 3 giorni
- Apri un bug nel nostro tracker interno per tenere traccia di questo problema
- e così via.

Per arrivare allo stato in cui un bot può agire per nostro conto, abbiamo bisogno di un nuovo costrutto in Discourse AI che permetta a uno strumento di cercare l’approvazione dell’utente. Questo è qualcosa a cui sto pensando.

Come sollevato nell’OP, sarebbe bello eseguire batch, c’è troppo tempo di attesa tra quando si modifica un prompt e quando si sa se la modifica ha funzionato o meno. Sto pensando a come aggiungere questo all’automazione.
La messa a punto in tempo reale è un concetto interessante… “Ehi bot, questo è troppo, perché mi stai infastidendo con queste cose?” … “Bot … X, Y, Z … vuoi che migliori il mio set di istruzioni?” … “Sì”

Spero che tutti troviate utile questo, fatemi sapere se avete domande.

Ed_S · 21 Marzo 2025, 9:14pm

Solo un’idea, potresti fare qualcosa nel tuo prompt in modo che il bot di moderazione, almeno ogni tanto, invii una risposta di notifica, per mostrare che funziona. Potresti, ad esempio, con una probabilità dell’1% quando un post non richiede azioni, pubblicare una nota che indica che questo post non ha bisogno di azioni. Oppure, con una probabilità inferiore, in un forum più attivo.

riking · 22 Marzo 2025, 8:05am

Osservando la differenza tra questi prompt:

Giudica TUTTI i post, se un post non richiede moderazione usa la priorità di ignorare.

Giudica TUTTI i post con occhio scettico. Usa la priorità di “ignorare” solo per i contributi con valore chiaro e autentico. Nel dubbio sul valore o sull’autenticità di un post, assegna almeno una priorità “bassa” per la revisione umana.

Penso sia importante ricordare il forte bias di recenza nei modelli – forse tutte le parole di comando dovrebbero essere menzionate in prosa verso la fine, in ordine inverso di frequenza desiderata.

RGJ · 25 Marzo 2025, 12:30pm

In alternativa, fallo attivare su una parola innocua, comune ma non troppo comune. “Segnala i post che menzionano ananas”.

sam · 3 Aprile 2025, 3:56am

Non posto da un po’, nonostante visiti quotidianamente la mia piccola finestra di chat e questa sia stata utile almeno un paio di volte al giorno… costantemente.

Il motivo del mio ritardo qui è che ho dovuto lavorare su questa modifica piuttosto importante.

github.com/discourse/discourse-ai

FEATURE: flexible image handling within messages

main ← better_upload_support

opened 07:22AM - 25 Mar 25 UTC

SamSaffron

+1380 -722

**1. What Led to the Change? (Problems with Previous Approach)** * **Incons…istent Context Handling:** The previous system often passed context information (like `post_id`, `user`, `private_message`, `topic_id`, `custom_instructions`) around using plain Ruby hashes (`context: {}`). This approach lacked structure, was potentially error-prone (typos in keys), and made it harder to track what context was available or required in different parts of the AI Bot system (Tools, Personas, Bot logic). Accessing context often involved `context[:key]`. * **Inflexible Image/Upload Handling:** Images associated with a user message were previously passed using a separate `upload_ids: [...]` array within the message hash. This made it difficult or impossible to represent prompts where text and images are interleaved naturally (e.g., "Describe this image {image1}, then compare it to this one {image2} and tell me the difference"). The LLM received the text and a list of associated image IDs, but not their precise relationship *within* the user's text flow. * **Complex/Decentralized Context Building:** Logic for assembling conversation history (e.g., pulling previous posts/messages, handling custom prompts, associating uploads) was somewhat spread out, notably seen in the significant changes and removals within `lib/ai_bot/playground.rb` (specifically the `conversation_context` and `chat_context` logic being refactored). **2. What New Support Does It Add? (Key Changes & Benefits)** * **Introduction of `DiscourseAi::AiBot::BotContext`:** * **What:** A dedicated class (`BotContext`) is introduced to encapsulate all contextual information for an AI Bot interaction. This includes messages, post/topic details, user information, site details (URL, title, description), time, participants, and control flags (like `skip_tool_details`). * **Why:** Provides a structured, standardized, and object-oriented way to manage and pass context. This improves code readability, maintainability, and reduces the chance of errors compared to using unstructured hashes. Access changes from `context[:key]` to `context.key`. * **Impact:** This class is now used consistently when initializing Tools (`Tool#initialize`), crafting prompts (`Persona#craft_prompt`), invoking the bot (`Bot#reply`), and within various helper methods, ensuring a uniform context object is available throughout the system. * **Enhanced Multimodal Input (Inline Images/Uploads):** * **What:** The format for representing user messages with uploads has fundamentally changed. Instead of a separate `upload_ids` array, uploads are now embedded directly *within* the `content` field, which becomes an array if uploads are present. Example: `content: ["Here is an image:", { upload_id: 123 }, "What do you see?"]`. * **Why:** This allows for precise interleaving of text and visual elements within a single user turn. It's a much more natural way to represent multimodal prompts for vision-capable LLMs, enabling more complex instructions involving multiple images referenced at specific points in the text. * **Impact:** Required changes across multiple components: * **`Prompt` Class:** Logic for handling uploads (`encoded_uploads`, `encode_upload`, `content_with_encoded_uploads`, `text_only`) was refactored to support this new inline structure. Validation was updated. * **LLM Dialects:** All relevant dialects (`ChatGpt`, `Claude`, `Gemini`, `Mistral`, `Nova`, `Ollama`, `OpenAiCompatible`) were updated to correctly parse the new `content` array format and translate it into the specific structure required by each respective LLM API (e.g., OpenAI's array of text/image_url objects, Gemini's parts array). A helper `to_encoded_content_array` was added to the base `Dialect` class. * **Modules Using Vision:** Code that passes uploads to LLMs (e.g., `LlmTriage`, `Assistant`, `SpamScanner`, `Playground`) was updated to use the new `content` format. * **Refactored Context Building:** * **What:** Logic for building conversation history from posts or chat messages seems to be increasingly centralized in `DiscourseAi::Completions::PromptMessagesBuilder`. New methods like `messages_from_post` and `messages_from_chat` appear to encapsulate this logic. * **Why:** Simplifies components like the `Playground` by abstracting away the details of fetching and formatting conversation history, including handling the new inline upload format. * **Impact:** Significant simplification in `lib/ai_bot/playground.rb`, removing large chunks of previous context-building code.

Fornisce un miglioramento sottile, ma critico, a Discourse AI.

Notavo regolarmente che il bot di moderazione parlava di immagini completamente irrilevanti, a causa del modo in cui costruivamo il contesto. La modifica ci consente di presentare contenuti misti (contenenti immagini e testo in modo ordinato).

Ciò significa che l’LLM non si confonde più.

Cosa succederà dopo?

Non abbiamo modo di automatizzare la chiamata di una regola dopo che la modifica del post si è “stabilizzata”, le chiamate LLM possono essere costose, solo perché le persone correggono errori di battitura non vogliamo analizzare qualcosa più e più volte. Non sono sicuro se questo sia necessario qui, ma vorrei consentire la possibilità di attivare un’automazione una volta che un post si stabilizza nella nuova forma.
Prompt engineering - il prompt attuale va bene, ma è un po’ troppo rumoroso per i miei gusti, mi infastidisce un po’ troppo, potrei ammorbidirlo un po’.
Contesto migliorato - una cosa che mi infastidisce davvero è che l’automazione ora non ha consapevolezza della fiducia dell’utente. Alcuni utenti sono molto più fidati in una community rispetto ad altri (ad esempio, i moderatori) vorrei vedere se possiamo migliorare questa situazione.
Possibilità di eseguire l’automazione su batch di post per iterazioni rapide.
Sono sicuro che salteranno fuori molte altre cose.

sam · 8 Aprile 2025, 7:21am

Il mio ultimo lavoro in corso è:

github.com/discourse/discourse-ai

FEATURE: allow tools to amend personas

main ← persona-editing

opened 06:59AM - 08 Apr 25 UTC

SamSaffron

+370 -5

Add API methods to AI tools for reading and updating personas, enabling more fle…xible AI workflows. This allows custom tools to: - Fetch persona information through discourse.getPersona() - Update personas with modified settings via discourse.updatePersona() - Also update using persona.update() These APIs enable new use cases like "trainable" moderation bots, where users with appropriate permissions can set and refine moderation rules through direct chat interactions, without needing admin panel access. Also adds a special API scope which allows people to lean on API for similar actions

La mia idea è che ci saranno 2 persona che alimenteranno il sistema:

Persona che esegue il triage: quella già definita oggi (triage bot)
Persona che interagisce con i moderatori / utenti ad alta fiducia (mod bot)

Chiacchierando con @mod_bot i moderatori (o utenti ad altissima fiducia) potranno guidare @triage_bot su come comportarsi.

Ad esempio:

@mod_bot, assicurati di far sapere a @sam se qualcuno parla di ai

Questo attiverà mod_bot per modificare il prompt di sistema su triage bot. Il che significa che essere in questa specifica chat room sarà sufficiente per consentire a qualsiasi community di addestrare il robot a comportarsi come desidera.

È una svolta interessante nell’implementazione della memoria. Non sono sicuro di quanto funzionerà nella pratica, ma è un esperimento molto degno.

sam · 26 Maggio 2025, 12:01am

Questo è ancora in funzione su meta.

Un insight che ho ora è che, l’automazione è fantastica, tranne quando non lo è, allora diventa terribile.

In particolare, rendi un robot strumentalmente troppo rumoroso, e il robot diventa inutile.

Ho cambiato le nostre istruzioni personalizzate al VERY boring:

Sei un bot basato su AI che legge ogni post su meta.discourse.org

Hai accesso a un solo strumento che utilizzerai per ogni post.

Usa la priorità ignore per ignorare il post e evitare notifiche.

Qualsiasi altra priorità notificherà

### Linee guida di triage
## Monitoraggio dei contenuti
* Notifica a @nat quando viene postato contenuto non in inglese (per assistere la funzionalità di traduttore)
* Notifica a @sam se noti che una discussione sta diventando tossica o troppo accesa
* Notifica a @hugh quando gli utenti discutono la funzionalità della coda di revisione
  * Include discussioni sull'esperienza del personale, strumenti dei moderatori, code, workflow di moderazione
  * Specialmente segnalazioni, revisione, approvazione, e questioni relative all'UI/UX di moderazione
### Fine delle linee guida di triage

In iterazioni passate ho guardato cose come “fammi sapere se noti una discussione su un bug che non è nel categoria dei bug”.

È sufficiente avere una regola di veleno e poi le notifiche di chat aumentano alle stelle e le ignori semplicemente.

Argomento		Risposte	Visualizzazioni
Introducing Discourse AI Blog	26	3626	Maggio 4, 2023
AI Forum Moderation: Seeking Insights and Experiences Dev ai	8	1687	Settembre 27, 2025
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	707	Ottobre 10, 2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	403	Luglio 7, 2023
Discourse AI - AI triage Site Management automation , how-to , ai	50	4699	Luglio 27, 2025

Sperimentazioni con la moderazione basata su AI su Discourse Meta

Perché la moderazione AI?

Perché la chat come modalità per questo esperimento

E il test batch?

Come è configurato?

Il nostro automazione del risponditore

La nostra moderazione Persona

Il nostro strumento personalizzato “judge post”

Quale modello stai usando?

Osservazioni

Cosa succederà dopo?

Argomenti correlati