Impostazione del rilevamento NSFW nella tua community

:bookmark: Questa è una guida per configurare il rilevamento di contenuti NSFW nella tua community utilizzando l’automazione di Discourse AI per identificare e moderare immagini e testi inappropriati.

:person_raising_hand: Livello utente richiesto: Amministratore

Configurazione del rilevamento NSFW nella tua community

Rileva e modera automaticamente i contenuti NSFW (Not Safe for Work) nella tua community di Discourse utilizzando l’automazione basata sull’IA. Questa guida ti aiuterà a configurare il rilevamento automatico sia per immagini inappropriate che per contenuti testuali, consentendoti di mantenere gli standard della community con un intervento manuale minimo.

Sommario

Questa documentazione copre la configurazione dell’automazione di Discourse AI Triage dei post tramite IA per:

  • Rilevare immagini NSFW utilizzando modelli di IA abilitati alla visione
  • Identificare contenuti e linguaggio testuali inappropriati
  • Segnalare, categorizzare e moderare automaticamente i post problematici
  • Impostare risposte personalizzate e azioni di moderazione

L’automazione utilizza modelli linguistici di grandi dimensioni (LLM) per analizzare il contenuto dei post ed esegue azioni predefinite quando viene rilevato materiale NSFW.

Prerequisiti

Prima di configurare il rilevamento NSFW, assicurati di aver abilitato quanto segue:

  • Plugin Discourse AI: Il plugin principale per le funzionalitĂ  di IA
  • Plugin Discourse Automation: Necessario per creare regole automatizzate
  • Agente: Agente con un prompt di sistema che definisce cosa costituisce contenuto NSFW. Utilizza un linguaggio distinto per le classificazioni positive e negative per evitare confusione.
  • LLM abilitato alla visione: Necessario solo per il rilevamento delle immagini; gli LLM standard funzionano per il rilevamento del solo testo. Assicurati che “Vision enabled” sia attivato sia per il modello LLM che per l’Agente.
    • I clienti con hosting Discourse possono selezionare il nostro CDCK Hosted Small LLM durante la configurazione degli Agenti.
    • Gli utenti di Discourse self-hosted dovranno configurare un LLM di terze parti.

Esempi di prompt:

Per il rilevamento delle immagini:

Sei un bot specializzato nella classificazione delle immagini. Rispondi solo con NSFW o SAFE, e nient'altro. NSFW è pornografia o gore, SAFE è tutto il resto. In caso di dubbio rispondi SAFE.

Per il rilevamento del testo:

Sei un sistema avanzato di moderazione dei contenuti AI progettato per smistare i post generati dagli utenti. Il tuo compito è rilevare e segnalare qualsiasi contenuto che includa linguaggio volgare, termini inappropriati o contenuti NSFW (Not Safe for Work).

I contenuti NSFW includono contenuti sessuali espliciti, violenza, discorsi d'odio, linguaggio grafico, discriminazione, riferimenti ad autolesionismo o attivitĂ  illegali.

Rispondi con esattamente una parola:
* "SAFE": Il post è appropriato e non contiene contenuti volgari o NSFW
* "NSFW": Se viene rilevato contenuto volgare, inappropriato o NSFW

Sii consapevole del contesto ed evita falsi positivi.

Passaggi di configurazione

Abilitare i plugin necessari

  1. Naviga nel pannello di amministrazione del tuo sito
  2. Vai a Plugins \u003e Installed Plugins
  3. Abilita entrambi i plugin Discourse AI e Automation

Creare la regola di automazione

  1. Nel pannello di amministrazione, naviga su Plugins \u003e Automation
  2. Fai clic su + Create per iniziare a creare una nuova regola di automazione
  3. Seleziona Triage Posts Using AI
  4. Imposta un nome descrittivo (es. “Rilevamento Contenuti NSFW”)

Configurare trigger e restrizioni

Imposta il trigger:

  • Scegli Post created/edited (Post creato/modificato) come trigger per la scansione di post nuovi o modificati
  • In alternativa, scegli Stalled topic (Argomento bloccato) per smistare gli argomenti senza risposte per una durata specificata
  • Facoltativamente, specifica il tipo di azione, Categorie, Tag, Gruppi, Livelli di fiducia o Caratteristiche del post per limitare l’ambito dell’automazione
  • Lascia i campi vuoti per applicare l’automazione a tutto il sito

Restrizioni facoltative (trigger Post creato/modificato):
Configura impostazioni aggiuntive per limitare ulteriormente l’ambito dell’automazione:

  • First post only (Solo primo post) o Original post only (Solo post originale) per prendere di mira solo i nuovi argomenti
  • First topic only (Solo primo argomento) per prendere di mira solo il primo argomento di un utente
  • Post features (Caratteristiche del post) per limitare ai post con immagini, link, codice o upload — utile per il rilevamento NSFW basato su immagini
  • Restricted archetype (Archetipo ristretto) per limitare agli argomenti normali, argomenti pubblici o messaggi privati

Configurare la classificazione AI

:spiral_notepad: Il campo prompt di sistema è stato deprecato a favore degli Agenti. Se avevi un’automazione AI prima di questa modifica, verrà creato automaticamente un nuovo Agente con il prompt di sistema associato.

Agente:
Seleziona l’Agente definito per l’automazione di rilevamento NSFW.

Search text: (Testo di ricerca)
Inserisci l’output esatto dal tuo prompt che attiva le azioni di automazione. Usando gli esempi precedenti, inserisci NSFW.

Opzioni avanzate:

  • Max Post Tokens: Limita quanti token del post vengono inviati all’LLM
  • Max output tokens: Imposta un limite superiore al numero di token che il modello può generare
  • Stop Sequences: Istruisce il modello a interrompere la generazione quando incontra valori specifici

Impostare le azioni di moderazione

Categorizzazione e tagging:

  • Definisci la categoria in cui devono essere spostati i post segnalati
  • Specifica i tag da aggiungere ai contenuti NSFW identificati

Opzioni di segnalazione (Flagging):

  • Abilita Flag post per attivare la segnalazione, quindi scegli un tipo di segnalazione:
    • Add post to review queue (Aggiungi post alla coda di revisione) — invia il post alla coda di revisione per la revisione manuale del moderatore
    • Add post to review queue and hide post (Aggiungi post alla coda di revisione e nascondi post) — coda di revisione + nasconde immediatamente il post
    • Add post to review queue and delete post (Aggiungi post alla coda di revisione e cancella post) — coda di revisione + elimina definitivamente il post
    • Add post to review queue, delete post and silence user (Aggiungi post alla coda di revisione, cancella post e silenzia utente) — coda di revisione + elimina definitivamente il post + silenzia l’autore
    • Flag as spam and hide post (Segnala come spam e nascondi post) — segnala il post come spam (lo nasconde automaticamente)
    • Flag as spam, hide post and silence user (Segnala come spam, nascondi post e silenzia utente) — segnalazione spam + silenzia l’autore
  • Abilita Hide Topic (Nascondi argomento) per nascondere automaticamente l’intero argomento

Risposte automatizzate:

  • Imposta un Reply User (Utente di risposta) e Reply (risposta predefinita) per pubblicare un messaggio fisso che spiega perchĂ© il post è stato segnalato
  • Seleziona un Reply Agent (Agente di risposta) per utilizzare un agente IA separato per generare risposte dinamiche (questo ha la precedenza sulla risposta predefinita)
  • Abilita Reply as Whisper (Rispondi come sussurro) per rendere la risposta visibile solo allo staff

Notifiche all’autore:

  • Abilita Notify author via PM (Notifica autore tramite MP) per inviare un messaggio personale all’autore del post quando il suo contenuto viene segnalato
  • Imposta un utente PM sender (mittente MP) (impostazione predefinita su sistema) e facoltativamente fornisci un PM content (contenuto MP) personalizzato

Altre opzioni:

  • Abilita Include personal messages (Includi messaggi personali) per scansionare e smistare anche i messaggi personali

Avvertenze

  • Tieni presente che le chiamate LLM possono essere costose. Quando applichi un classificatore, fai attenzione a monitorare i costi e considera sempre di eseguirlo solo su piccoli sottoinsiemi.
  • Sebbene i modelli con prestazioni migliori, ad esempio GPT-4o, forniscano risultati migliori, ciò può comportare un costo piĂą elevato. Tuttavia, abbiamo visto il costo diminuire nel tempo man mano che gli LLM diventano ancora migliori ed economici.

Altri usi

Il prompt potrebbe essere personalizzato per eseguire ogni tipo di rilevamento, come l’esposizione di PII e il rilevamento dello spam. Ci piacerebbe sapere come stai mettendo al lavoro questa automazione a beneficio della tua Community!

8 Mi Piace

Un post è stato diviso in un nuovo argomento: LLM e ritardo nel rilevamento di contenuti NSFW