Impostazione del rilevamento NSFW nella tua community

Saif · 10 Ottobre 2024, 4:26am

Questa è una guida per configurare il rilevamento di contenuti NSFW nella tua community utilizzando l’automazione di Discourse AI per identificare e moderare immagini e testi inappropriati.

Livello utente richiesto: Amministratore

Configurazione del rilevamento NSFW nella tua community

Rileva e modera automaticamente i contenuti NSFW (Not Safe for Work) nella tua community di Discourse utilizzando l’automazione basata sull’IA. Questa guida ti aiuterà a configurare il rilevamento automatico sia per immagini inappropriate che per contenuti testuali, consentendoti di mantenere gli standard della community con un intervento manuale minimo.

Sommario

Questa documentazione copre la configurazione dell’automazione di Discourse AI Triage dei post tramite IA per:

Rilevare immagini NSFW utilizzando modelli di IA abilitati alla visione
Identificare contenuti e linguaggio testuali inappropriati
Segnalare, categorizzare e moderare automaticamente i post problematici
Impostare risposte personalizzate e azioni di moderazione

L’automazione utilizza modelli linguistici di grandi dimensioni (LLM) per analizzare il contenuto dei post ed esegue azioni predefinite quando viene rilevato materiale NSFW.

Prerequisiti

Prima di configurare il rilevamento NSFW, assicurati di aver abilitato quanto segue:

Plugin Discourse AI: Il plugin principale per le funzionalità di IA
Plugin Discourse Automation: Necessario per creare regole automatizzate
Agente: Agente con un prompt di sistema che definisce cosa costituisce contenuto NSFW. Utilizza un linguaggio distinto per le classificazioni positive e negative per evitare confusione.
LLM abilitato alla visione: Necessario solo per il rilevamento delle immagini; gli LLM standard funzionano per il rilevamento del solo testo. Assicurati che “Vision enabled” sia attivato sia per il modello LLM che per l’Agente.
- I clienti con hosting Discourse possono selezionare il nostro CDCK Hosted Small LLM durante la configurazione degli Agenti.
- Gli utenti di Discourse self-hosted dovranno configurare un LLM di terze parti.

Esempi di prompt:

Per il rilevamento delle immagini:

Sei un bot specializzato nella classificazione delle immagini. Rispondi solo con NSFW o SAFE, e nient'altro. NSFW è pornografia o gore, SAFE è tutto il resto. In caso di dubbio rispondi SAFE.

Per il rilevamento del testo:

Sei un sistema avanzato di moderazione dei contenuti AI progettato per smistare i post generati dagli utenti. Il tuo compito è rilevare e segnalare qualsiasi contenuto che includa linguaggio volgare, termini inappropriati o contenuti NSFW (Not Safe for Work).

I contenuti NSFW includono contenuti sessuali espliciti, violenza, discorsi d'odio, linguaggio grafico, discriminazione, riferimenti ad autolesionismo o attività illegali.

Rispondi con esattamente una parola:
* "SAFE": Il post è appropriato e non contiene contenuti volgari o NSFW
* "NSFW": Se viene rilevato contenuto volgare, inappropriato o NSFW

Sii consapevole del contesto ed evita falsi positivi.

Passaggi di configurazione

Abilitare i plugin necessari

Naviga nel pannello di amministrazione del tuo sito
Vai a Plugins \u003e Installed Plugins
Abilita entrambi i plugin Discourse AI e Automation

Creare la regola di automazione

Nel pannello di amministrazione, naviga su Plugins \u003e Automation
Fai clic su + Create per iniziare a creare una nuova regola di automazione
Seleziona Triage Posts Using AI
Imposta un nome descrittivo (es. “Rilevamento Contenuti NSFW”)

Configurare trigger e restrizioni

Imposta il trigger:

Scegli Post created/edited (Post creato/modificato) come trigger per la scansione di post nuovi o modificati
In alternativa, scegli Stalled topic (Argomento bloccato) per smistare gli argomenti senza risposte per una durata specificata
Facoltativamente, specifica il tipo di azione, Categorie, Tag, Gruppi, Livelli di fiducia o Caratteristiche del post per limitare l’ambito dell’automazione
Lascia i campi vuoti per applicare l’automazione a tutto il sito

Restrizioni facoltative (trigger Post creato/modificato):
Configura impostazioni aggiuntive per limitare ulteriormente l’ambito dell’automazione:

First post only (Solo primo post) o Original post only (Solo post originale) per prendere di mira solo i nuovi argomenti
First topic only (Solo primo argomento) per prendere di mira solo il primo argomento di un utente
Post features (Caratteristiche del post) per limitare ai post con immagini, link, codice o upload — utile per il rilevamento NSFW basato su immagini
Restricted archetype (Archetipo ristretto) per limitare agli argomenti normali, argomenti pubblici o messaggi privati

Configurare la classificazione AI

Il campo prompt di sistema è stato deprecato a favore degli Agenti. Se avevi un’automazione AI prima di questa modifica, verrà creato automaticamente un nuovo Agente con il prompt di sistema associato.

Agente:
Seleziona l’Agente definito per l’automazione di rilevamento NSFW.

Search text: (Testo di ricerca)
Inserisci l’output esatto dal tuo prompt che attiva le azioni di automazione. Usando gli esempi precedenti, inserisci NSFW.

Opzioni avanzate:

Max Post Tokens: Limita quanti token del post vengono inviati all’LLM
Max output tokens: Imposta un limite superiore al numero di token che il modello può generare
Stop Sequences: Istruisce il modello a interrompere la generazione quando incontra valori specifici

Impostare le azioni di moderazione

Categorizzazione e tagging:

Definisci la categoria in cui devono essere spostati i post segnalati
Specifica i tag da aggiungere ai contenuti NSFW identificati

Opzioni di segnalazione (Flagging):

Abilita Flag post per attivare la segnalazione, quindi scegli un tipo di segnalazione:
- Add post to review queue (Aggiungi post alla coda di revisione) — invia il post alla coda di revisione per la revisione manuale del moderatore
- Add post to review queue and hide post (Aggiungi post alla coda di revisione e nascondi post) — coda di revisione + nasconde immediatamente il post
- Add post to review queue and delete post (Aggiungi post alla coda di revisione e cancella post) — coda di revisione + elimina definitivamente il post
- Add post to review queue, delete post and silence user (Aggiungi post alla coda di revisione, cancella post e silenzia utente) — coda di revisione + elimina definitivamente il post + silenzia l’autore
- Flag as spam and hide post (Segnala come spam e nascondi post) — segnala il post come spam (lo nasconde automaticamente)
- Flag as spam, hide post and silence user (Segnala come spam, nascondi post e silenzia utente) — segnalazione spam + silenzia l’autore
Abilita Hide Topic (Nascondi argomento) per nascondere automaticamente l’intero argomento

Risposte automatizzate:

Imposta un Reply User (Utente di risposta) e Reply (risposta predefinita) per pubblicare un messaggio fisso che spiega perché il post è stato segnalato
Seleziona un Reply Agent (Agente di risposta) per utilizzare un agente IA separato per generare risposte dinamiche (questo ha la precedenza sulla risposta predefinita)
Abilita Reply as Whisper (Rispondi come sussurro) per rendere la risposta visibile solo allo staff

Notifiche all’autore:

Abilita Notify author via PM (Notifica autore tramite MP) per inviare un messaggio personale all’autore del post quando il suo contenuto viene segnalato
Imposta un utente PM sender (mittente MP) (impostazione predefinita su sistema) e facoltativamente fornisci un PM content (contenuto MP) personalizzato

Altre opzioni:

Abilita Include personal messages (Includi messaggi personali) per scansionare e smistare anche i messaggi personali

Avvertenze

Tieni presente che le chiamate LLM possono essere costose. Quando applichi un classificatore, fai attenzione a monitorare i costi e considera sempre di eseguirlo solo su piccoli sottoinsiemi.
Sebbene i modelli con prestazioni migliori, ad esempio GPT-4o, forniscano risultati migliori, ciò può comportare un costo più elevato. Tuttavia, abbiamo visto il costo diminuire nel tempo man mano che gli LLM diventano ancora migliori ed economici.

Altri usi

Il prompt potrebbe essere personalizzato per eseguire ogni tipo di rilevamento, come l’esposizione di PII e il rilevamento dello spam. Ci piacerebbe sapere come stai mettendo al lavoro questa automazione a beneficio della tua Community!

sam · 2 Marzo 2026, 4:06am

Un post è stato diviso in un nuovo argomento: LLM e ritardo nel rilevamento di contenuti NSFW

Argomento		Risposte	Visualizzazioni
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	461	Luglio 7, 2023
Setting up toxicity detection in your community Site Management automation , ai , how-to , moderation	0	1054	Agosto 7, 2024
NSFW image blurring in chat Support chat , ai	5	592	Settembre 26, 2024
Discourse AI - Spam detection Site Management moderation , spam , how-to , ai	32	3788	Marzo 10, 2026
AI integration for moderation Support	2	107	Gennaio 25, 2026