Questa è una guida per configurare il rilevamento di contenuti NSFW (Not Safe for Work) nella tua community utilizzando l’automazione di Discourse AI per identificare e moderare immagini e testi inappropriati.
Livello utente richiesto: Amministratore
Configurazione del rilevamento NSFW nella tua community
Rileva e modera automaticamente i contenuti NSFW (Not Safe for Work) nella tua community Discourse utilizzando l’automazione basata sull’IA. Questa guida ti aiuterà a configurare il rilevamento automatico sia per immagini che per testi inappropriati, consentendoti di mantenere gli standard della community con un intervento manuale minimo.
Sommario
Questa documentazione copre la configurazione dell’automazione del Classificatore Post di Discourse AI per:
- Rilevare immagini NSFW utilizzando modelli IA abilitati alla visione
- Identificare contenuti e linguaggio testuali inappropriati
- Segnalare, categorizzare e moderare automaticamente i post problematici
- Impostare risposte e azioni di moderazione personalizzate
L’automazione utilizza modelli linguistici di grandi dimensioni (LLM) per analizzare il contenuto dei post ed esegue azioni predefinite quando viene rilevato materiale NSFW.
Prerequisiti
Prima di configurare il rilevamento NSFW, assicurati di aver abilitato quanto segue:
- Plugin Discourse AI: Il plugin principale per le funzionalitĂ IA
- Plugin Discourse Automation: Necessario per creare regole automatizzate
- Agent: Agent con un prompt di sistema che definisce cosa costituisce contenuto NSFW. Utilizza un linguaggio distinto per le classificazioni positive e negative per evitare confusione.
- LLM abilitato alla visione: Necessario solo per il rilevamento di immagini; gli LLM standard funzionano per il rilevamento solo testuale.
- I clienti ospitati da Discourse possono selezionare il nostro LLM CDCK Hosted Small durante la configurazione degli Agent.
- Gli utenti di Discourse self-hosted dovranno configurare un LLM di terze parti.
Esempi di prompt:
Per il rilevamento di immagini:
Sei un bot specializzato nella classificazione di immagini. Rispondi solo con NSFW o SAFE, e nient'altro. NSFW è pornografia o gore, SAFE è tutto il resto. In caso di dubbio rispondi SAFE.
Per il rilevamento di testo:
Sei un sistema avanzato di moderazione dei contenuti IA progettato per filtrare i post generati dagli utenti. Il tuo compito è rilevare e segnalare qualsiasi contenuto che includa linguaggio volgare, termini inappropriati o contenuti NSFW (Not Safe for Work).
I contenuti NSFW includono contenuti sessuali espliciti, violenza, incitamento all'odio, linguaggio grafico, discriminazione, riferimenti all'autolesionismo o attivitĂ illegali.
Rispondi esattamente con una parola:
* "SAFE": Il post è appropriato e non contiene contenuti volgari o NSFW
* "NSFW": Se viene rilevato contenuto volgare, inappropriato o NSFW
Sii consapevole del contesto ed evita i falsi positivi.
Passaggi di configurazione
Abilitare i plugin richiesti
- Vai al pannello di amministrazione del tuo sito
- Vai su Plugins > Installed Plugins
- Abilita entrambi i plugin Discourse AI e Automation
Creare la regola di automazione
- Nel pannello di amministrazione, vai su Plugins > Automation
- Fai clic su + Create per iniziare a creare una nuova regola di automazione
- Seleziona Triage Posts Using AI (Filtra post utilizzando l’IA)
- Imposta un nome descrittivo (es. “Rilevamento Contenuti NSFW”)
Configurare trigger e restrizioni
Imposta il trigger:
- Scegli Post created/edited (Post creato/modificato) come trigger
- Facoltativamente specifica il tipo di Azione, Categoria, Tag, Gruppi o Livelli di Fiducia per limitare l’ambito dell’automazione
- Lascia i campi vuoti per applicare l’automazione a tutto il sito
Restrizioni opzionali:
Configura impostazioni aggiuntive nella sezione What/When per limitare ulteriormente l’ambito dell’automazione, come il targeting solo dei primi post di nuovi utenti.
Configurare la classificazione IA
Il campo prompt di sistema è stato deprecato a favore degli Agent. Se avevi un’automazione IA prima di questa modifica, verrà creato automaticamente un nuovo Agente con il prompt di sistema associato.
Agent:
Seleziona l’Agente definito per l’automazione di rilevamento NSFW.
Testo di ricerca (Search text):
Inserisci l’output esatto dal tuo prompt che attiva le azioni di automazione. Usando gli esempi sopra, inserisci NSFW.
Impostare le azioni di moderazione
Categorizzazione e tagging:
- Definisci la categoria in cui devono essere spostati i post contrassegnati
- Specifica i tag da aggiungere ai contenuti NSFW identificati
Opzioni di segnalazione (Flagging):
- Scegli il tipo di segnalazione: spam (nascondi automaticamente) o coda di revisione (revisione manuale)
- Abilita “Hide Topic” (Nascondi Argomento) per nascondere automaticamente i contenuti segnalati
Risposte automatiche:
- Imposta un utente di risposta per le risposte di sistema
- Crea un messaggio personalizzato che spieghi perché il post è stato segnalato
- Utilizza facoltativamente l’Agente IA per risposte dinamiche
Avvertenze
- Tieni presente che le chiamate LLM possono essere costose. Quando applichi un classificatore, fai attenzione a monitorare i costi e considera sempre di eseguirlo solo su piccoli sottoinsiemi.
- Sebbene i modelli con prestazioni migliori, ad esempio GPT-4o, forniscano risultati migliori, ciò può comportare un costo più elevato. Tuttavia, abbiamo osservato che il costo diminuisce nel tempo man mano che gli LLM diventano ancora migliori ed economici.
Altri usi
Il prompt potrebbe essere personalizzato per eseguire ogni tipo di rilevamento, come l’esposizione di PII e il rilevamento dello spam. Ci piacerebbe sapere come stai mettendo al lavoro questa automazione a beneficio della tua Community!


