Configurare il rilevamento della tossicità nella tua community

:bookmark: Questa è una guida in stile how-to per configurare il rilevamento di contenuti tossici nella tua community utilizzando il Classificatore di Post di Discourse AI.
:
:person_raising_hand: Livello utente richiesto: Amministratore

Panoramica

In questo argomento utilizzeremo Discourse AI - AI triage per rilevare la tossicità e far rispettare un codice di condotta per la tua community. Utilizzando questa guida, gli amministratori saranno a conoscenza di tali post e intraprenderanno le azioni appropriate.

Si noti che le istruzioni qui possono essere personalizzate in base alle proprie preferenze.

Prerequisiti

Affinché ciò funzioni, è necessario che siano abilitati i seguenti elementi:

  • Discourse AI
  • Discourse-Automation
  • Agent con un prompt di sistema che definisce cosa costituisce contenuto tossico.
  • LLM (Large Language Model)
    • I clienti con hosting Discourse possono selezionare il nostro LLM Piccolo ospitato da CDCK durante la configurazione degli Agenti.
    • Gli utenti di Discourse self-hosted dovranno configurare un LLM di terze parti.

:warning: Durante la stesura del prompt, scegliendo tra tossico e non tossico, evita di usare un linguaggio simile per il risultato finale. In questo esempio usiamo toxic (tossico) e positive (per non tossicità)

Il classificatore non sarà sempre perfetto al 100%, quindi fai attenzione ai risultati errati e personalizza i prompt in base alle esigenze della tua community. Più è ristretto il focus, meglio è.

Prompt LLM copiabili per il rilevamento di contenuti tossici AI Sei un modello di intelligenza artificiale per il rilevamento di contenuti tossici che assiste i moderatori delle community online. Il tuo compito è analizzare i post del forum e determinare se sono tossici e debbano essere rimossi per mantenere una community di alta qualità e pertinente all'argomento.

Un post deve essere classificato come tossico se soddisfa uno qualsiasi di questi criteri:

  1. Linguaggio Dannoso: Uso di volgarità, insulti o termini denigratori diretti a individui o gruppi.
  2. Attacchi Personali: Prendere di mira o molestare direttamente altri membri, inclusi insulti, umiliazioni o sminuizioni.
  3. Incitamento all’Odio (Hate Speech): Qualsiasi forma di linguaggio o espressione che promuova odio, discriminazione o violenza contro individui o gruppi sulla base di razza, etnia, religione, genere, orientamento sessuale, disabilità o qualsiasi altra caratteristica protetta.
  4. Minacce e Intimidazioni: Esprimere minacce di violenza o intimidazioni nei confronti di un altro utente.
  5. Spam e Interruzione: Pubblicare contenuti fuori tema, irrilevanti, pubblicità o messaggi ripetitivi volti a interrompere la conversazione.
  6. Commenti Infiammatori: Fare affermazioni intese a provocare rabbia, discordia o angoscia emotiva tra gli utenti.
  7. Tono Irrispettoso: Uso di un tono condiscendente, sarcastico o sminuente che mina il dialogo costruttivo.
  8. Violazione della Privacy: Condivisione di informazioni personali su altri utenti senza il loro consenso.
  9. Comportamento Disonesto: Diffondere informazioni false, voci o impegnarsi in pratiche ingannevoli per trarre in inganno la community.
  10. Contenuti Sessualmente Espliciti: Condividere o visualizzare contenuti o linguaggio sessuale inappropriato per il contesto della community.

Un post dovrebbe essere classificato come positivo se:

  1. Linguaggio Rispettoso: Uso di un linguaggio educato, cortese e inclusivo che rispetti tutti i membri.
  2. Feedback Costruttivo: Offrire critiche o feedback utili e costruttivi volti a migliorare o supportare i contributi altrui.
  3. Incoraggiamento e Lode: Riconoscere e apprezzare le azioni e i contributi positivi degli altri.
  4. Dialogo Produttivo: Impegnarsi in discussioni significative e approfondite che portano avanti la conversazione.
  5. Supporto: Fornire assistenza, consigli o supporto emotivo agli altri membri in modo gentile e comprensivo.
  6. Inclusività: Sforzarsi di includere gli altri nella conversazione e valorizzare diverse prospettive e opinioni.
  7. Conformità alle Linee Guida: Aderire al codice di condotta e alle linee guida della community senza eccezioni.
  8. Tono Positivo: Mantenere un tono amichevole, aperto e accogliente che incoraggi la partecipazione degli altri.
  9. Condivisione di Contenuti di Valore: Contribuire con risorse, approfondimenti o informazioni utili e pertinenti per la community.
  10. Risoluzione dei Conflitti: Lavorare attivamente per risolvere i conflitti in modo pacifico e amichevole, favorendo un’atmosfera cooperativa e armoniosa.

Alcuni casi limite a cui prestare attenzione:

  • Sarcasmo e Insulti Sottili: Valuta il contesto e il tono per determinare se i commenti sono sminuenti o denigratori.
  • Critica Costruttiva vs. Attacchi Personali: Concentrati se il feedback è orientato all’obiettivo e rispettoso o se attacca personalmente.
  • Umorismo e Battute: Valuta il potenziale delle battute di alienare o danneggiare gli altri e assicurati che non perpetuino stereotipi.
  • Disaccordo vs. Commenti Infiammatori: Incoraggia un dibattito rispettoso monitorando attacchi personali o linguaggio infiammatorio.
  • Sensibilità Culturale: Presta attenzione alle sfumature culturali ed educa gli utenti a rispettare i diversi contesti.
  • Sfogo Emotivo: Supporta gli utenti assicurandoti che lo sfogo non prenda di mira o danneggi gli altri.
  • Contenuti Ambigui: Chiedi chiarimenti sui contenuti ambigui e guida gli utenti verso un’espressione chiara.
  • Argomenti Sensibili: Monitora attentamente e assicurati un coinvolgimento rispettoso nelle discussioni su questioni delicate.
  • Comportamento Passivo-Aggressivo: Affronta l’ostilità indiretta e incoraggia una comunicazione diretta e rispettosa.
  • Conflitti Privati che si Riversano nel Pubblico: Incoraggia a risolvere le dispute private in privato e offri supporto per la mediazione.

Quando hai finito di analizzare il post devi fornire SOLO una classificazione di “toxic” o “positive”. In caso di incertezza, scegli “positive” per evitare falsi positivi.

Queste istruzioni devono essere seguite a tutti i costi

Configurazione

:information_source: Non tutti i passaggi sono obbligatori poiché le regole di automazione possono essere personalizzate in base alle necessità. Per una panoramica di tutte le impostazioni disponibili, visita Discourse AI - AI triage.

  1. Abilita i plugin Discourse AI e Automation:
  • Naviga nel pannello di amministrazione del tuo sito.
  • Vai a Plugin e poi Plugin Installati
  • Abilita i plugin Discourse AI e Automation
  1. Crea una Nuova Regola di Automazione:
  • Naviga nel pannello di amministrazione del tuo sito.
  • Vai a Plugin e fai clic su Automation
  • Fai clic sul pulsante + Create per iniziare a creare una nuova regola di Automazione
  • Fai clic su Triage Posts Using AI
  • Imposta il nome (ad esempio, “Triage Post usando l’IA”)
  • Lascia selezionato lo script Triage Posts Using AI

Cosa/Quando

  1. Imposta il Trigger:
  • Scegli Post created/edited (Post creato/modificato) come trigger.
  • Facoltativamente, specifica il tipo di Azione, Categoria, Tag, Gruppi e/o Livelli di Fiducia se desideri limitare questa Automazione a scenari specifici. Lasciando questi campi vuoti, l’Automazione opererà senza restrizioni.
  • Configura qualsiasi altra impostazione opzionale rimanente nella sezione What/When (Cosa/Quando) per limitare ulteriormente l’automazione.

Opzioni Script

:spiral_notepad: Il campo prompt di sistema è stato deprecato a favore degli Agenti. Se avevi un’automazione AI prima di questa modifica, verrà creato automaticamente un nuovo Agente con il prompt di sistema associato.

  1. Agente:

    Seleziona l’Agente definito per l’automazione di rilevamento della tossicità.

  2. Cerca Testo:

    Inserisci l’output dal tuo prompt che attiverà l’automazione, solo il risultato “positive”. Usando il nostro esempio sopra, inseririremmo toxic.

  1. Imposta Categoria e Tag:

    Definisci la categoria in cui questi post dovrebbero essere spostati e i tag da aggiungere se il post viene contrassegnato come tossico.

  2. Segnalazione (Flagging):

  • Abilita l’opzione “Flag post” (Segnala post) per contrassegnare il post.
  • Seleziona un tipo di segnale (flag type) per determinare quale azione intraprendere. Opzioni disponibili:
    • Add post to review queue (Aggiungi post alla coda di revisione) — invia il post alla coda di revisione per l’azione del moderatore.
    • Add post to review queue and hide post (Aggiungi post alla coda di revisione e nascondi post) — mette in coda per la revisione e nasconde immediatamente il post.
    • Add post to review queue and delete post (Aggiungi post alla coda di revisione e elimina post) — mette in coda per la revisione ed elimina (soft-delete) il post.
    • Add post to review queue, delete post and silence user (Aggiungi post alla coda di revisione, elimina post e silenzia utente) — mette in coda per la revisione, elimina (soft-delete) il post e silenzia l’autore.
    • Flag as spam and hide post (Segnala come spam e nascondi post) — segnala il post come spam e lo nasconde.
    • Flag as spam, hide post and silence user (Segnala come spam, nascondi post e silenzia utente) — segnala come spam, nasconde il post e silenzia l’autore.
  1. Opzioni Aggiuntive:
  • Abilita l’opzione “Hide Topic” (Nascondi Argomento) se desideri che l’argomento venga nascosto.
  • Imposta una “Reply” (Risposta) che verrà pubblicata nell’argomento se il post viene ritenuto tossico, specificando facoltativamente un “Reply User” (Utente Rispondente).
  • Utilizza l’opzione “Reply Agent” (Agente Rispondente) per far generare una risposta dinamica da un agente IA invece di una risposta predefinita. Questa avrà la priorità su una risposta predefinita se entrambe sono impostate.
  • Abilita “Reply as Whisper” (Rispondi come Sussurro) per rendere la risposta visibile solo allo staff.
  • Abilita “Notify author via PM” (Notifica autore tramite MP) per inviare un messaggio privato all’autore del post quando il suo contenuto viene segnalato. Puoi facoltativamente specificare un mittente MP e un messaggio personalizzato.

Avvertenze

  • Tieni presente che le chiamate LLM possono essere costose. Quando applichi un classificatore, fai attenzione a monitorare i costi e considera sempre di eseguirlo solo su piccoli sottoinsiemi.
  • Sebbene modelli con prestazioni migliori forniranno risultati migliori, potrebbero comportare un costo maggiore.
  • Il prompt potrebbe essere personalizzato per eseguire tutti i tipi di rilevamento, come l’esposizione di PII (Informazioni di Identificazione Personale), rilevamento spam, ecc.
8 Mi Piace