Configurare il rilevamento NSFW nella tua community

Saif · 10 Ottobre 2024, 4:26am

Questa è una guida per configurare il rilevamento di contenuti NSFW nella tua community utilizzando l’automazione di Discourse AI per identificare e moderare immagini e testi inappropriati.

Livello utente richiesto: Amministratore

Configurazione del rilevamento NSFW nella tua community

Rileva e modera automaticamente contenuti NSFW (Not Safe for Work) nella tua community Discourse utilizzando l’automazione basata sull’IA. Questa guida ti aiuterà a configurare il rilevamento automatico sia per immagini inappropriate che per contenuti testuali, permettendoti di mantenere gli standard della community con un intervento manuale minimo.

Riepilogo

Questa documentazione copre la configurazione dell’automazione Discourse AI Post Classifier per:

Rilevare immagini NSFW utilizzando modelli AI con capacità di visione
Identificare contenuti testuali e linguaggi inappropriati
Segnalare, categorizzare e moderare automaticamente post problematici
Impostare risposte personalizzate e azioni di moderazione

L’automazione utilizza modelli linguistici di grandi dimensioni (LLM) per analizzare il contenuto dei post e intraprende azioni predefinite quando viene rilevato materiale NSFW.

Prerequisiti

Prima di configurare il rilevamento NSFW, assicurati di aver abilitato quanto segue:

Plugin Discourse AI: Il plugin principale per le funzionalità AI
Plugin Discourse Automation: Necessario per creare regole automatizzate
Persona: Persona con un prompt di sistema che definisce cosa costituisce contenuto NSFW. Utilizza un linguaggio distinto per classificazioni positive e negative per evitare confusione.
LLM con capacità di visione: Necessario solo per il rilevamento di immagini; gli LLM standard funzionano per il rilevamento di soli testi.
- I clienti ospitati da Discourse possono selezionare il nostro CDCK Hosted Small LLM durante la configurazione delle Personas.
- Gli utenti di Discourse self-hosted dovranno configurare un LLM di terze parti.

Prompt di esempio:

Per il rilevamento di immagini:

Sei un bot specializzato nella classificazione delle immagini. Rispondi solo con NSFW o SAFE, e nient'altro. NSFW è pornografia o gore, e SAFE è tutto il resto. In caso di dubbio, rispondi SAFE.

Per il rilevamento di testi:

Sei un sistema avanzato di moderazione dei contenuti AI progettato per smistare i post generati dagli utenti. Il tuo compito è rilevare e segnalare qualsiasi contenuto che includa linguaggio volgare, termini inappropriati o contenuti NSFW (Not Safe for Work).

I contenuti NSFW includono contenuti sessuali espliciti, violenza, discorsi d'odio, linguaggio grafico, discriminazione, riferimenti all'autolesionismo o attività illegali.

Rispondi con esattamente una parola:
* "SAFE": Il post è appropriato e non contiene contenuti volgari o NSFW
* "NSFW": Se viene rilevato contenuto volgare, inappropriato o NSFW

Sii consapevole del contesto ed evita falsi positivi.

Passaggi di configurazione

Abilita i plugin richiesti

Naviga nel pannello di amministrazione del tuo sito
Vai su Plugin > Plugin Installati
Abilita sia il plugin Discourse AI che il plugin Automation

Crea regola di automazione

Nel pannello di amministrazione, naviga su Plugin > Automation
Fai clic su + Crea per iniziare a creare una nuova regola di automazione
Seleziona Smista Post Utilizzando l’IA
Imposta un nome descrittivo (es. “Rilevamento Contenuti NSFW”)

Configura trigger e restrizioni

Imposta il trigger:

Scegli Post creato/modificato come trigger
Opzionalmente, specifica Tipo di azione, Categoria, Tag, Gruppi o Livelli di fiducia per limitare l’ambito dell’automazione
Lascia i campi vuoti per applicare l’automazione a tutto il sito

Restrizioni opzionali:
Configura impostazioni aggiuntive nella sezione Cosa/Quando per limitare ulteriormente l’ambito dell’automazione, come ad esempio targettizzare solo i primi post di nuovi utenti.

Configura la classificazione AI

Il campo prompt di sistema è stato deprecato a favore delle Personas. Se avevi un’automazione AI prima di questa modifica, verrà creata automaticamente una nuova Persona con il relativo prompt di sistema.

Persona:
Seleziona la Persona definita per l’automazione del rilevamento NSFW.

Testo di ricerca:
Inserisci l’output esatto dal tuo prompt che attiva le azioni di automazione. Utilizzando gli esempi sopra, inserisci NSFW.

Imposta azioni di moderazione

Categorizzazione e tagging:

Definisci la categoria in cui spostare i post segnalati
Specifica i tag da aggiungere ai contenuti NSFW identificati

Opzioni di segnalazione:

Scegli il tipo di flag: spam (nascondi automaticamente) o coda di revisione (revisione manuale)
Abilita “Nascondi Argomento” per nascondere automaticamente i contenuti segnalati

Risposte automatiche:

Imposta un utente per le risposte di sistema
Crea un messaggio personalizzato che spieghi perché il post è stato segnalato
Opzionalmente, utilizza AI Persona per risposte dinamiche

Avvertenze

Tieni presente che le chiamate LLM possono essere costose. Quando applichi un classificatore, fai attenzione a monitorare i costi e considera sempre di eseguirlo solo su piccoli sottoinsiemi.
Modelli con prestazioni migliori, ad esempio GPT-4o, daranno risultati migliori, ma ciò può comportare un costo maggiore. Tuttavia, abbiamo visto diminuire i costi nel tempo man mano che gli LLM diventano ancora migliori ed economici.

Altri utilizzi

Il prompt potrebbe essere personalizzato per eseguire tutti i tipi di rilevamento, come l’esposizione di PII e il rilevamento di spam. Ci piacerebbe sapere come stai mettendo a frutto questa automazione a beneficio della tua Community!

Argomento		Risposte	Visualizzazioni
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	403	Luglio 7, 2023
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	855	Agosto 7, 2024
NSFW image blurring in chat Support chat , ai	5	512	Settembre 26, 2024
Discourse AI - Spam detection Site Management moderation , how-to , ai , spam	22	2431	Settembre 25, 2025
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	681	Maggio 26, 2025