L'automazione del triage AI scansiona i DM tra utenti regolari?

Ciao,

Ho configurato l’automazione “Classifica i post utilizzando l’IA” per la moderazione dei contenuti sulla mia piattaforma (madeira.community — un elenco aziendale multilingue per l’isola di Madeira).

L’automazione funziona perfettamente per i post pubblici. Tuttavia, ho attivato l’opzione “Includi messaggi personali” e ho scoperto che i messaggi privati (DM) tra utenti normali non vengono scansionati affatto.

La mia preoccupazione è reale: soggetti malintenzionati possono utilizzare i messaggi privati per svolgere attività illegali — spaccio di droga, condivisione di dati finanziari rubati, adescamento — aggirando completamente la moderazione basata sull’IA che funziona bene sui contenuti pubblici.

Le mie domande:

  1. “Includi messaggi personali” supporta davvero la scansione dei DM tra due utenti normali (non membri dello staff)?

  2. Se no, è una scelta di progettazione o una limitazione nota?

  3. Esiste un metodo supportato per applicare la classificazione tramite IA ai messaggi privati tra utenti normali?

Ho trovato un riferimento a un commit “Salta la scansione dei messaggi privati nella classificazione LLM per impostazione predefinita”, il che suggerisce che potrebbe essere intenzionale. Ma l’opzione nell’interfaccia esiste, quindi sono confuso su cosa faccia effettivamente.

Grazie

1 Mi Piace

Sì, lo fa. Se abiliti quell’opzione, dovrebbe scansionare i PM.

Come hai determinato questo?

3 Mi Piace

“L’ho testato inviando un messaggio privato tra due utenti normali (testUser a darinauser, entrambi non staff) con contenuti chiaramente illegali: ‘cocaina. armi. granate’ e ‘pornografia. sporcizia. decadenza. violenza’. I messaggi sono stati consegnati e non sono stati segnalati. La coda di revisione è rimasta vuota. Lo stesso contenuto nei post pubblici è stato segnalato immediatamente.”

Posso confermare che non sono stati elaborati: gli ID dei topic di quei messaggi privati (210, 211, 212 e 214) e gli ID dei post non sono presenti nella tabella ai_api_audit_logs.

Penso che “Tipo di topic” “Tutti i topic” significhi tutti i topic che non sono messaggi privati.
Potresti provare a lasciare quel campo vuoto?

3 Mi Piace

Ha funzionato! Grazie, Richard. Lasciare vuoto il Tipo di argomento ha risolto il problema: i messaggi privati tra utenti normali vengono ora analizzati.
Ora sto pianificando di impostare due automazioni separate:

Una per i post pubblici con un prompt di moderazione rigoroso
Una per i messaggi privati con un prompt più leggero: segnalerà solo le violazioni più gravi (CSAM, spaccio di droga, armi)

In questo modo i contenuti pubblici riceveranno una moderazione completa, mentre le conversazioni private avranno confini più appropriati.

L’argomento può essere chiuso. Grazie!

2 Mi Piace

Hmm, “tutti gli argomenti” sembra un po’ poco chiaro in questo contesto… forse dovremmo aggiornarlo per chiarire

  • tutti gli argomenti argomenti (tutte le categorie)
  • Argomenti pubblici (escludi tutte le categorie sicure) argomenti (solo categorie pubbliche)
  • messaggi personali solo
4 Mi Piace

La sezione “Tutti gli argomenti” mi ha portato a pensare che tutto il contenuto sarebbe stato esaminato.
Non avevo nemmeno considerato che lasciare il campo vuoto avrebbe comportato l’esame di tutto il contenuto.

1 Mi Piace

Penso che un singolo menu a tendina sia piuttosto limitato e che tre opzioni separate sarebbero migliori e sicuramente più chiare per l’utente.

  • argomenti pubblici sì/no
  • argomenti non pubblici sì/no
  • messaggi privati sì/no

Ci sono 8 situazioni possibili e il menu a tendina ne copre solo quattro.

1 Mi Piace

forse sì?

  • Tutti (argomenti + messaggi privati)

  • solo argomenti pubblici

  • solo argomenti non pubblici

  • argomenti non pubblici + messaggi privati

  • solo messaggi privati

Ciò non copre “argomenti regolari (sia pubblici che non pubblici), ma nessun messaggio privato”, che sarebbe una scelta piuttosto logica.

E, sebbene sia una scelta meno probabile, “argomenti pubblici e messaggi privati”

1 Mi Piace