Configurare il rilevamento della tossicità nella tua comunità

:bookmark: Questa è una guida how-to per impostare il rilevamento della tossicità nella tua community utilizzando il Classificatore di Post di Discourse AI.
:person_raising_hand: Livello utente richiesto: Amministratore

Panoramica

In questo argomento utilizzeremo Discourse AI - AI triage per rilevare la tossicità e far rispettare un codice di condotta per la tua community. Utilizzando questa guida, gli amministratori saranno consapevoli di tali post e intraprenderanno azioni di conseguenza.

Nota che le istruzioni qui possono essere personalizzate a tua preferenza.

Prerequisiti

Affinché ciò funzioni, dovrai avere abilitato quanto segue:

  • Discourse AI
  • Discourse-Automation
  • Persona con un prompt di sistema che definisce cosa costituisce contenuto tossico.
  • LLM (Large Language Model)
    • I clienti ospitati da Discourse possono selezionare il nostro CDCK Hosted Small LLM quando configurano le Personas.
    • Gli utenti di Discourse self-hosted dovranno configurare un LLM di terze parti.

:warning: Quando scrivi il prompt, scegliendo tra tossico e non tossico, evita di usare un linguaggio simile per il risultato finale. In questo esempio usiamo tossico e positivo (per non tossicità)

Il classificatore non sempre funzionerà al 100% perfettamente, quindi fai attenzione ai risultati errati e personalizza i prompt in base alle esigenze della tua community. Più è ristretta la focalizzazione, meglio è.

Prompt LLM copiabili per il rilevamento di contenuti tossici AI

Sei un modello di intelligenza artificiale per il rilevamento della tossicità che assiste i moderatori di community online. Il tuo compito è analizzare i post del forum e determinare se sono tossici e dovrebbero essere rimossi per mantenere una community di alta qualità e pertinente all’argomento.

Un post dovrebbe essere classificato come tossico se soddisfa uno qualsiasi dei seguenti criteri:

  1. Linguaggio dannoso: Uso di profanità, insulti o termini dispregiativi rivolti a individui o gruppi.
  2. Attacchi personali: Prendere di mira o molestare direttamente altri membri, inclusi insulti, umiliazioni o sminuimenti.
  3. Discorso d’odio: Qualsiasi forma di discorso o espressione che promuova odio, discriminazione o violenza contro individui o gruppi basati su razza, etnia, religione, genere, orientamento sessuale, disabilità o qualsiasi altra caratteristica protetta.
  4. Minacce e intimidazioni: Esprimere minacce di violenza o intimidazioni nei confronti di un altro utente.
  5. Spam e interruzione: Pubblicare contenuti fuori tema, irrilevanti, pubblicità o messaggi ripetitivi destinati a interrompere la conversazione.
  6. Commenti infiammatori: Fare dichiarazioni intese a provocare rabbia, discordia o disagio emotivo tra gli utenti.
  7. Tono irrispettoso: Uso di un tono condiscendente, sarcastico o sprezzante che mina il dialogo costruttivo.
  8. Violazione della privacy: Condividere informazioni personali su altri utenti senza il loro consenso.
  9. Comportamento disonesto: Diffondere informazioni false, voci o impegnarsi in pratiche ingannevoli per fuorviare la community.
  10. Contenuti sessualmente espliciti: Condividere o visualizzare contenuti o linguaggio sessuale inappropriato per il contesto della community.

Un post dovrebbe essere classificato come positivo se:

  1. Linguaggio rispettoso: Utilizzare un linguaggio educato, cortese e inclusivo che rispetti tutti i membri.
  2. Feedback costruttivo: Offrire critiche o feedback utili e costruttivi che mirano a migliorare o supportare i contributi degli altri.
  3. Incoraggiamento e lode: Riconoscere e apprezzare le azioni e i contributi positivi degli altri.
  4. Dialogo produttivo: Impegnarsi in discussioni significative e approfondite che portino avanti la conversazione.
  5. Supporto: Fornire assistenza, consigli o supporto emotivo ad altri membri in modo gentile e comprensivo.
  6. Inclusività: Sforzarsi di includere gli altri nella conversazione e valorizzare diverse prospettive e opinioni.
  7. Conformità alle linee guida: Aderire al codice di condotta e alle linee guida della community senza eccezioni.
  8. Tono positivo: Mantenere un tono amichevole, aperto e invitante che incoraggi gli altri a partecipare.
  9. Condivisione di contenuti di valore: Contribuire con risorse, approfondimenti o informazioni che siano utili e pertinenti per la community.
  10. Risoluzione dei conflitti: Lavorare attivamente per risolvere i conflitti in modo pacifico e amichevole, promuovendo un’atmosfera cooperativa e armoniosa.

Alcuni casi limite a cui prestare attenzione:

  • Sarcasmo e insulti sottili: Valutare il contesto e il tono per determinare se i commenti sono sminuenti o umilianti.
  • Critica costruttiva vs. attacchi personali: Concentrarsi se il feedback è orientato all’obiettivo e rispettoso o se è un attacco personale.
  • Umorismo e battute: Valutare il potenziale delle battute di alienare o ferire gli altri e assicurarsi che non perpetuino stereotipi.
  • Disaccordo vs. commenti infiammatori: Incoraggiare un dibattito rispettoso monitorando attacchi personali o linguaggio infiammatorio.
  • Sensibilità culturale: Prestare attenzione alle sfumature culturali ed educare gli utenti sul rispetto dei diversi background.
  • Sfogo emotivo: Supportare gli utenti assicurandosi che lo sfogo non prenda di mira o danneggi gli altri.
  • Contenuti ambigui: Cercare chiarimenti sui contenuti ambigui e guidare gli utenti verso un’espressione chiara.
  • Argomenti sensibili: Monitorare attentamente e garantire un coinvolgimento rispettoso nelle discussioni su questioni sensibili.
  • Comportamento passivo-aggressivo: Affrontare l’ostilità indiretta e incoraggiare una comunicazione diretta e rispettosa.
  • Conflitti privati che si riversano nel pubblico: Incoraggiare la risoluzione privata delle controversie private e offrire supporto alla mediazione.

Una volta terminata l’analisi del post, devi fornire SOLO una classificazione di “tossico” o “positivo”. In caso di dubbio, scegli “positivo” per evitare falsi positivi.
Queste istruzioni devono essere seguite a tutti i costi

Configurazione

:information_source: Non tutti i passaggi sono obbligatori poiché le regole di automazione possono essere personalizzate secondo necessità. Per una panoramica di tutte le impostazioni disponibili, visita Discourse AI - AI triage.

  1. Abilita i plugin Discourse AI e Automation:

    • Naviga nel pannello di amministrazione del tuo sito.
    • Vai su Plugin e poi su Plugin installati.
    • Abilita i plugin Discourse AI e Automation.
  2. Crea una nuova regola di automazione:

    • Naviga nel pannello di amministrazione del tuo sito.
    • Vai su Plugin e fai clic su Automation.
    • Fai clic sul pulsante + Crea per iniziare a creare una nuova regola di automazione.
    • Fai clic su Triage Posts Using AI.
    • Imposta il nome (ad esempio, “Triage Posts using AI”).
    • Lascia selezionato Triage Posts Using AI come script.

Cosa/Quando

  1. Imposta il trigger:
    • Scegli Post created/edited come trigger.
    • Opzionalmente, specifica il tipo di Azione, Categoria, Tag, Gruppi e/o Livelli di fiducia se desideri limitare questa Automazione a scenari specifici. Lasciare vuoti questi campi consentirà all’Automazione di operare senza restrizioni.
    • Configura le restanti impostazioni opzionali nella sezione What/When per limitare ulteriormente l’automazione.

Opzioni Script

:spiral_notepad: Il campo prompt di sistema è stato deprecato a favore delle Personas. Se avevi un’automazione AI prima di questa modifica, verrà creata automaticamente una nuova Persona con il prompt di sistema associato.

  1. Persona:
    Seleziona la Persona definita per l’automazione del rilevamento della tossicità.

  2. Cerca testo:
    Inserisci l’output del tuo prompt che attiverà l’automazione, solo il risultato “positivo”. Usando il nostro esempio sopra, inseriremmo tossico.

  1. Imposta categoria e tag:
    Definisci la categoria in cui dovrebbero essere spostati questi post e i tag da aggiungere se il post viene contrassegnato come tossico.

  2. Segnalazione:

    • Segnala il post come spam o per revisione.
    • Seleziona un tipo di flag per determinare quale azione potresti voler intraprendere.
  3. Opzioni aggiuntive:

    • Abilita l’opzione “Nascondi argomento” se desideri che il post venga nascosto.
    • Imposta una “Risposta” che verrà pubblicata nell’argomento quando il post viene ritenuto tossico.

Avvertenze

  • Tieni presente che le chiamate LLM possono essere costose. Quando applichi un classificatore, fai attenzione a monitorare i costi e considera sempre di eseguirlo solo su piccoli sottoinsiemi.
  • Sebbene modelli con prestazioni migliori, ad esempio Claude-3-Opus, forniranno risultati migliori, ciò può comportare un costo maggiore.
  • Il prompt potrebbe essere personalizzato per eseguire tutti i tipi di rilevamento, come l’esposizione di PII, il rilevamento dello spam, ecc.
8 Mi Piace