Questa è una guida per configurare il rilevamento di contenuti NSFW nella tua community utilizzando l’automazione di Discourse AI per identificare e moderare immagini e testi inappropriati.
Livello utente richiesto: Amministratore
Configurazione del rilevamento NSFW nella tua community
Rileva e modera automaticamente contenuti NSFW (Not Safe for Work) nella tua community Discourse utilizzando l’automazione basata sull’IA. Questa guida ti aiuterà a configurare il rilevamento automatico sia per immagini inappropriate che per contenuti testuali, permettendoti di mantenere gli standard della community con un intervento manuale minimo.
Riepilogo
Questa documentazione copre la configurazione dell’automazione Discourse AI Post Classifier per:
- Rilevare immagini NSFW utilizzando modelli AI con capacitĂ di visione
- Identificare contenuti testuali e linguaggi inappropriati
- Segnalare, categorizzare e moderare automaticamente post problematici
- Impostare risposte personalizzate e azioni di moderazione
L’automazione utilizza modelli linguistici di grandi dimensioni (LLM) per analizzare il contenuto dei post e intraprende azioni predefinite quando viene rilevato materiale NSFW.
Prerequisiti
Prima di configurare il rilevamento NSFW, assicurati di aver abilitato quanto segue:
- Plugin Discourse AI: Il plugin principale per le funzionalitĂ AI
- Plugin Discourse Automation: Necessario per creare regole automatizzate
- Persona: Persona con un prompt di sistema che definisce cosa costituisce contenuto NSFW. Utilizza un linguaggio distinto per classificazioni positive e negative per evitare confusione.
- LLM con capacitĂ di visione: Necessario solo per il rilevamento di immagini; gli LLM standard funzionano per il rilevamento di soli testi.
- I clienti ospitati da Discourse possono selezionare il nostro CDCK Hosted Small LLM durante la configurazione delle Personas.
- Gli utenti di Discourse self-hosted dovranno configurare un LLM di terze parti.
Prompt di esempio:
Per il rilevamento di immagini:
Sei un bot specializzato nella classificazione delle immagini. Rispondi solo con NSFW o SAFE, e nient'altro. NSFW è pornografia o gore, e SAFE è tutto il resto. In caso di dubbio, rispondi SAFE.
Per il rilevamento di testi:
Sei un sistema avanzato di moderazione dei contenuti AI progettato per smistare i post generati dagli utenti. Il tuo compito è rilevare e segnalare qualsiasi contenuto che includa linguaggio volgare, termini inappropriati o contenuti NSFW (Not Safe for Work).
I contenuti NSFW includono contenuti sessuali espliciti, violenza, discorsi d'odio, linguaggio grafico, discriminazione, riferimenti all'autolesionismo o attivitĂ illegali.
Rispondi con esattamente una parola:
* "SAFE": Il post è appropriato e non contiene contenuti volgari o NSFW
* "NSFW": Se viene rilevato contenuto volgare, inappropriato o NSFW
Sii consapevole del contesto ed evita falsi positivi.
Passaggi di configurazione
Abilita i plugin richiesti
- Naviga nel pannello di amministrazione del tuo sito
- Vai su Plugin > Plugin Installati
- Abilita sia il plugin Discourse AI che il plugin Automation
Crea regola di automazione
- Nel pannello di amministrazione, naviga su Plugin > Automation
- Fai clic su + Crea per iniziare a creare una nuova regola di automazione
- Seleziona Smista Post Utilizzando l’IA
- Imposta un nome descrittivo (es. “Rilevamento Contenuti NSFW”)
Configura trigger e restrizioni
Imposta il trigger:
- Scegli Post creato/modificato come trigger
- Opzionalmente, specifica Tipo di azione, Categoria, Tag, Gruppi o Livelli di fiducia per limitare l’ambito dell’automazione
- Lascia i campi vuoti per applicare l’automazione a tutto il sito
Restrizioni opzionali:
Configura impostazioni aggiuntive nella sezione Cosa/Quando per limitare ulteriormente l’ambito dell’automazione, come ad esempio targettizzare solo i primi post di nuovi utenti.
Configura la classificazione AI
Il campo prompt di sistema è stato deprecato a favore delle Personas. Se avevi un’automazione AI prima di questa modifica, verrà creata automaticamente una nuova Persona con il relativo prompt di sistema.
Persona:
Seleziona la Persona definita per l’automazione del rilevamento NSFW.
Testo di ricerca:
Inserisci l’output esatto dal tuo prompt che attiva le azioni di automazione. Utilizzando gli esempi sopra, inserisci NSFW.
Imposta azioni di moderazione
Categorizzazione e tagging:
- Definisci la categoria in cui spostare i post segnalati
- Specifica i tag da aggiungere ai contenuti NSFW identificati
Opzioni di segnalazione:
- Scegli il tipo di flag: spam (nascondi automaticamente) o coda di revisione (revisione manuale)
- Abilita “Nascondi Argomento” per nascondere automaticamente i contenuti segnalati
Risposte automatiche:
- Imposta un utente per le risposte di sistema
- Crea un messaggio personalizzato che spieghi perché il post è stato segnalato
- Opzionalmente, utilizza AI Persona per risposte dinamiche
Avvertenze
- Tieni presente che le chiamate LLM possono essere costose. Quando applichi un classificatore, fai attenzione a monitorare i costi e considera sempre di eseguirlo solo su piccoli sottoinsiemi.
- Modelli con prestazioni migliori, ad esempio GPT-4o, daranno risultati migliori, ma ciò può comportare un costo maggiore. Tuttavia, abbiamo visto diminuire i costi nel tempo man mano che gli LLM diventano ancora migliori ed economici.
Altri utilizzi
Il prompt potrebbe essere personalizzato per eseguire tutti i tipi di rilevamento, come l’esposizione di PII e il rilevamento di spam. Ci piacerebbe sapere come stai mettendo a frutto questa automazione a beneficio della tua Community!


