Configurare il rilevamento della tossicità nella tua comunità

Discourse · 7 Agosto 2024, 4:02pm

Questa è una guida how-to per impostare il rilevamento della tossicità nella tua community utilizzando il Classificatore di Post di Discourse AI.
Livello utente richiesto: Amministratore

Panoramica

In questo argomento utilizzeremo Discourse AI - AI triage per rilevare la tossicità e far rispettare un codice di condotta per la tua community. Utilizzando questa guida, gli amministratori saranno consapevoli di tali post e intraprenderanno azioni di conseguenza.

Nota che le istruzioni qui possono essere personalizzate a tua preferenza.

Prerequisiti

Affinché ciò funzioni, dovrai avere abilitato quanto segue:

Discourse AI
Discourse-Automation
Persona con un prompt di sistema che definisce cosa costituisce contenuto tossico.
LLM (Large Language Model)
- I clienti ospitati da Discourse possono selezionare il nostro CDCK Hosted Small LLM quando configurano le Personas.
- Gli utenti di Discourse self-hosted dovranno configurare un LLM di terze parti.

Quando scrivi il prompt, scegliendo tra tossico e non tossico, evita di usare un linguaggio simile per il risultato finale. In questo esempio usiamo tossico e positivo (per non tossicità)

Il classificatore non sempre funzionerà al 100% perfettamente, quindi fai attenzione ai risultati errati e personalizza i prompt in base alle esigenze della tua community. Più è ristretta la focalizzazione, meglio è.

Prompt LLM copiabili per il rilevamento di contenuti tossici AI

Sei un modello di intelligenza artificiale per il rilevamento della tossicità che assiste i moderatori di community online. Il tuo compito è analizzare i post del forum e determinare se sono tossici e dovrebbero essere rimossi per mantenere una community di alta qualità e pertinente all’argomento.

Un post dovrebbe essere classificato come tossico se soddisfa uno qualsiasi dei seguenti criteri:

Linguaggio dannoso: Uso di profanità, insulti o termini dispregiativi rivolti a individui o gruppi.
Attacchi personali: Prendere di mira o molestare direttamente altri membri, inclusi insulti, umiliazioni o sminuimenti.
Discorso d’odio: Qualsiasi forma di discorso o espressione che promuova odio, discriminazione o violenza contro individui o gruppi basati su razza, etnia, religione, genere, orientamento sessuale, disabilità o qualsiasi altra caratteristica protetta.
Minacce e intimidazioni: Esprimere minacce di violenza o intimidazioni nei confronti di un altro utente.
Spam e interruzione: Pubblicare contenuti fuori tema, irrilevanti, pubblicità o messaggi ripetitivi destinati a interrompere la conversazione.
Commenti infiammatori: Fare dichiarazioni intese a provocare rabbia, discordia o disagio emotivo tra gli utenti.
Tono irrispettoso: Uso di un tono condiscendente, sarcastico o sprezzante che mina il dialogo costruttivo.
Violazione della privacy: Condividere informazioni personali su altri utenti senza il loro consenso.
Comportamento disonesto: Diffondere informazioni false, voci o impegnarsi in pratiche ingannevoli per fuorviare la community.
Contenuti sessualmente espliciti: Condividere o visualizzare contenuti o linguaggio sessuale inappropriato per il contesto della community.

Un post dovrebbe essere classificato come positivo se:

Linguaggio rispettoso: Utilizzare un linguaggio educato, cortese e inclusivo che rispetti tutti i membri.
Feedback costruttivo: Offrire critiche o feedback utili e costruttivi che mirano a migliorare o supportare i contributi degli altri.
Incoraggiamento e lode: Riconoscere e apprezzare le azioni e i contributi positivi degli altri.
Dialogo produttivo: Impegnarsi in discussioni significative e approfondite che portino avanti la conversazione.
Supporto: Fornire assistenza, consigli o supporto emotivo ad altri membri in modo gentile e comprensivo.
Inclusività: Sforzarsi di includere gli altri nella conversazione e valorizzare diverse prospettive e opinioni.
Conformità alle linee guida: Aderire al codice di condotta e alle linee guida della community senza eccezioni.
Tono positivo: Mantenere un tono amichevole, aperto e invitante che incoraggi gli altri a partecipare.
Condivisione di contenuti di valore: Contribuire con risorse, approfondimenti o informazioni che siano utili e pertinenti per la community.
Risoluzione dei conflitti: Lavorare attivamente per risolvere i conflitti in modo pacifico e amichevole, promuovendo un’atmosfera cooperativa e armoniosa.

Alcuni casi limite a cui prestare attenzione:

Sarcasmo e insulti sottili: Valutare il contesto e il tono per determinare se i commenti sono sminuenti o umilianti.
Critica costruttiva vs. attacchi personali: Concentrarsi se il feedback è orientato all’obiettivo e rispettoso o se è un attacco personale.
Umorismo e battute: Valutare il potenziale delle battute di alienare o ferire gli altri e assicurarsi che non perpetuino stereotipi.
Disaccordo vs. commenti infiammatori: Incoraggiare un dibattito rispettoso monitorando attacchi personali o linguaggio infiammatorio.
Sensibilità culturale: Prestare attenzione alle sfumature culturali ed educare gli utenti sul rispetto dei diversi background.
Sfogo emotivo: Supportare gli utenti assicurandosi che lo sfogo non prenda di mira o danneggi gli altri.
Contenuti ambigui: Cercare chiarimenti sui contenuti ambigui e guidare gli utenti verso un’espressione chiara.
Argomenti sensibili: Monitorare attentamente e garantire un coinvolgimento rispettoso nelle discussioni su questioni sensibili.
Comportamento passivo-aggressivo: Affrontare l’ostilità indiretta e incoraggiare una comunicazione diretta e rispettosa.
Conflitti privati che si riversano nel pubblico: Incoraggiare la risoluzione privata delle controversie private e offrire supporto alla mediazione.

Una volta terminata l’analisi del post, devi fornire SOLO una classificazione di “tossico” o “positivo”. In caso di dubbio, scegli “positivo” per evitare falsi positivi.
Queste istruzioni devono essere seguite a tutti i costi

Configurazione

Non tutti i passaggi sono obbligatori poiché le regole di automazione possono essere personalizzate secondo necessità. Per una panoramica di tutte le impostazioni disponibili, visita Discourse AI - AI triage.

Abilita i plugin Discourse AI e Automation:
- Naviga nel pannello di amministrazione del tuo sito.
- Vai su Plugin e poi su Plugin installati.
- Abilita i plugin Discourse AI e Automation.
Crea una nuova regola di automazione:
- Naviga nel pannello di amministrazione del tuo sito.
- Vai su Plugin e fai clic su Automation.
- Fai clic sul pulsante + Crea per iniziare a creare una nuova regola di automazione.
- Fai clic su Triage Posts Using AI.
- Imposta il nome (ad esempio, “Triage Posts using AI”).
- Lascia selezionato Triage Posts Using AI come script.

Cosa/Quando

Imposta il trigger:
- Scegli Post created/edited come trigger.
- Opzionalmente, specifica il tipo di Azione, Categoria, Tag, Gruppi e/o Livelli di fiducia se desideri limitare questa Automazione a scenari specifici. Lasciare vuoti questi campi consentirà all’Automazione di operare senza restrizioni.
- Configura le restanti impostazioni opzionali nella sezione What/When per limitare ulteriormente l’automazione.

Opzioni Script

Il campo prompt di sistema è stato deprecato a favore delle Personas. Se avevi un’automazione AI prima di questa modifica, verrà creata automaticamente una nuova Persona con il prompt di sistema associato.

Persona:
Seleziona la Persona definita per l’automazione del rilevamento della tossicità.
Cerca testo:
Inserisci l’output del tuo prompt che attiverà l’automazione, solo il risultato “positivo”. Usando il nostro esempio sopra, inseriremmo tossico.

Imposta categoria e tag:
Definisci la categoria in cui dovrebbero essere spostati questi post e i tag da aggiungere se il post viene contrassegnato come tossico.
Segnalazione:
- Segnala il post come spam o per revisione.
- Seleziona un tipo di flag per determinare quale azione potresti voler intraprendere.
Opzioni aggiuntive:
- Abilita l’opzione “Nascondi argomento” se desideri che il post venga nascosto.
- Imposta una “Risposta” che verrà pubblicata nell’argomento quando il post viene ritenuto tossico.

Avvertenze

Tieni presente che le chiamate LLM possono essere costose. Quando applichi un classificatore, fai attenzione a monitorare i costi e considera sempre di eseguirlo solo su piccoli sottoinsiemi.
Sebbene modelli con prestazioni migliori, ad esempio Claude-3-Opus, forniranno risultati migliori, ciò può comportare un costo maggiore.
Il prompt potrebbe essere personalizzato per eseguire tutti i tipi di rilevamento, come l’esposizione di PII, il rilevamento dello spam, ecc.

Argomento		Risposte	Visualizzazioni
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	403	Luglio 7, 2023
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	714	Ottobre 10, 2024
Discourse AI - Spam detection Site Management moderation , how-to , ai , spam	22	2433	Settembre 25, 2025
What's next for Toxicity detection in Discourse AI Announcements automation , ai , ai-toxicity	8	408	Dicembre 5, 2024
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	681	Maggio 26, 2025