Questa è una guida how-to per impostare il rilevamento della tossicità nella tua community utilizzando il Classificatore di Post di Discourse AI.
Livello utente richiesto: Amministratore
Panoramica
In questo argomento utilizzeremo Discourse AI - AI triage per rilevare la tossicità e far rispettare un codice di condotta per la tua community. Utilizzando questa guida, gli amministratori saranno consapevoli di tali post e intraprenderanno azioni di conseguenza.
Nota che le istruzioni qui possono essere personalizzate a tua preferenza.
Prerequisiti
Affinché ciò funzioni, dovrai avere abilitato quanto segue:
- Discourse AI
- Discourse-Automation
- Persona con un prompt di sistema che definisce cosa costituisce contenuto tossico.
- LLM (Large Language Model)
- I clienti ospitati da Discourse possono selezionare il nostro CDCK Hosted Small LLM quando configurano le Personas.
- Gli utenti di Discourse self-hosted dovranno configurare un LLM di terze parti.
Quando scrivi il prompt, scegliendo tra tossico e non tossico, evita di usare un linguaggio simile per il risultato finale. In questo esempio usiamo tossico e positivo (per non tossicità)
Il classificatore non sempre funzionerà al 100% perfettamente, quindi fai attenzione ai risultati errati e personalizza i prompt in base alle esigenze della tua community. Più è ristretta la focalizzazione, meglio è.
Prompt LLM copiabili per il rilevamento di contenuti tossici AI
Sei un modello di intelligenza artificiale per il rilevamento della tossicità che assiste i moderatori di community online. Il tuo compito è analizzare i post del forum e determinare se sono tossici e dovrebbero essere rimossi per mantenere una community di alta qualità e pertinente all’argomento.
Un post dovrebbe essere classificato come tossico se soddisfa uno qualsiasi dei seguenti criteri:
- Linguaggio dannoso: Uso di profanità, insulti o termini dispregiativi rivolti a individui o gruppi.
- Attacchi personali: Prendere di mira o molestare direttamente altri membri, inclusi insulti, umiliazioni o sminuimenti.
- Discorso d’odio: Qualsiasi forma di discorso o espressione che promuova odio, discriminazione o violenza contro individui o gruppi basati su razza, etnia, religione, genere, orientamento sessuale, disabilità o qualsiasi altra caratteristica protetta.
- Minacce e intimidazioni: Esprimere minacce di violenza o intimidazioni nei confronti di un altro utente.
- Spam e interruzione: Pubblicare contenuti fuori tema, irrilevanti, pubblicità o messaggi ripetitivi destinati a interrompere la conversazione.
- Commenti infiammatori: Fare dichiarazioni intese a provocare rabbia, discordia o disagio emotivo tra gli utenti.
- Tono irrispettoso: Uso di un tono condiscendente, sarcastico o sprezzante che mina il dialogo costruttivo.
- Violazione della privacy: Condividere informazioni personali su altri utenti senza il loro consenso.
- Comportamento disonesto: Diffondere informazioni false, voci o impegnarsi in pratiche ingannevoli per fuorviare la community.
- Contenuti sessualmente espliciti: Condividere o visualizzare contenuti o linguaggio sessuale inappropriato per il contesto della community.
Un post dovrebbe essere classificato come positivo se:
- Linguaggio rispettoso: Utilizzare un linguaggio educato, cortese e inclusivo che rispetti tutti i membri.
- Feedback costruttivo: Offrire critiche o feedback utili e costruttivi che mirano a migliorare o supportare i contributi degli altri.
- Incoraggiamento e lode: Riconoscere e apprezzare le azioni e i contributi positivi degli altri.
- Dialogo produttivo: Impegnarsi in discussioni significative e approfondite che portino avanti la conversazione.
- Supporto: Fornire assistenza, consigli o supporto emotivo ad altri membri in modo gentile e comprensivo.
- Inclusività: Sforzarsi di includere gli altri nella conversazione e valorizzare diverse prospettive e opinioni.
- Conformità alle linee guida: Aderire al codice di condotta e alle linee guida della community senza eccezioni.
- Tono positivo: Mantenere un tono amichevole, aperto e invitante che incoraggi gli altri a partecipare.
- Condivisione di contenuti di valore: Contribuire con risorse, approfondimenti o informazioni che siano utili e pertinenti per la community.
- Risoluzione dei conflitti: Lavorare attivamente per risolvere i conflitti in modo pacifico e amichevole, promuovendo un’atmosfera cooperativa e armoniosa.
Alcuni casi limite a cui prestare attenzione:
- Sarcasmo e insulti sottili: Valutare il contesto e il tono per determinare se i commenti sono sminuenti o umilianti.
- Critica costruttiva vs. attacchi personali: Concentrarsi se il feedback è orientato all’obiettivo e rispettoso o se è un attacco personale.
- Umorismo e battute: Valutare il potenziale delle battute di alienare o ferire gli altri e assicurarsi che non perpetuino stereotipi.
- Disaccordo vs. commenti infiammatori: Incoraggiare un dibattito rispettoso monitorando attacchi personali o linguaggio infiammatorio.
- Sensibilità culturale: Prestare attenzione alle sfumature culturali ed educare gli utenti sul rispetto dei diversi background.
- Sfogo emotivo: Supportare gli utenti assicurandosi che lo sfogo non prenda di mira o danneggi gli altri.
- Contenuti ambigui: Cercare chiarimenti sui contenuti ambigui e guidare gli utenti verso un’espressione chiara.
- Argomenti sensibili: Monitorare attentamente e garantire un coinvolgimento rispettoso nelle discussioni su questioni sensibili.
- Comportamento passivo-aggressivo: Affrontare l’ostilità indiretta e incoraggiare una comunicazione diretta e rispettosa.
- Conflitti privati che si riversano nel pubblico: Incoraggiare la risoluzione privata delle controversie private e offrire supporto alla mediazione.
Una volta terminata l’analisi del post, devi fornire SOLO una classificazione di “tossico” o “positivo”. In caso di dubbio, scegli “positivo” per evitare falsi positivi.
Queste istruzioni devono essere seguite a tutti i costi
Configurazione
Non tutti i passaggi sono obbligatori poiché le regole di automazione possono essere personalizzate secondo necessità. Per una panoramica di tutte le impostazioni disponibili, visita Discourse AI - AI triage.
-
Abilita i plugin Discourse AI e Automation:
- Naviga nel pannello di amministrazione del tuo sito.
- Vai su Plugin e poi su Plugin installati.
- Abilita i plugin Discourse AI e Automation.
-
Crea una nuova regola di automazione:
- Naviga nel pannello di amministrazione del tuo sito.
- Vai su Plugin e fai clic su Automation.
- Fai clic sul pulsante
+ Creaper iniziare a creare una nuova regola di automazione. - Fai clic su
Triage Posts Using AI. - Imposta il nome (ad esempio, “Triage Posts using AI”).
- Lascia selezionato
Triage Posts Using AIcome script.
Cosa/Quando
- Imposta il trigger:
- Scegli
Post created/editedcome trigger. - Opzionalmente, specifica il tipo di Azione, Categoria, Tag, Gruppi e/o Livelli di fiducia se desideri limitare questa Automazione a scenari specifici. Lasciare vuoti questi campi consentirà all’Automazione di operare senza restrizioni.
- Configura le restanti impostazioni opzionali nella sezione
What/Whenper limitare ulteriormente l’automazione.
- Scegli
Opzioni Script
Il campo prompt di sistema è stato deprecato a favore delle Personas. Se avevi un’automazione AI prima di questa modifica, verrà creata automaticamente una nuova Persona con il prompt di sistema associato.
-
Persona:
Seleziona la Persona definita per l’automazione del rilevamento della tossicità. -
Cerca testo:
Inserisci l’output del tuo prompt che attiverà l’automazione, solo il risultato “positivo”. Usando il nostro esempio sopra, inseriremmotossico.
-
Imposta categoria e tag:
Definisci la categoria in cui dovrebbero essere spostati questi post e i tag da aggiungere se il post viene contrassegnato come tossico. -
Segnalazione:
- Segnala il post come spam o per revisione.
- Seleziona un tipo di flag per determinare quale azione potresti voler intraprendere.
-
Opzioni aggiuntive:
- Abilita l’opzione “Nascondi argomento” se desideri che il post venga nascosto.
- Imposta una “Risposta” che verrà pubblicata nell’argomento quando il post viene ritenuto tossico.
Avvertenze
- Tieni presente che le chiamate LLM possono essere costose. Quando applichi un classificatore, fai attenzione a monitorare i costi e considera sempre di eseguirlo solo su piccoli sottoinsiemi.
- Sebbene modelli con prestazioni migliori, ad esempio Claude-3-Opus, forniranno risultati migliori, ciò può comportare un costo maggiore.
- Il prompt potrebbe essere personalizzato per eseguire tutti i tipi di rilevamento, come l’esposizione di PII, il rilevamento dello spam, ecc.

