Discourse AI - Rilevamento spam

Ed ecco un esempio degli stessi spammer che vengono scoperti qui: https://meta.discourse.org/t/full-list-of-quickbooks-desktop-support-contact-numbers-a-complete-call-center-in-the-usa/380776 (è già nascosto).

Questi ragazzi stanno decisamente lavorando sodo.

1 Mi Piace

Ottimo lavoro su questa funzionalità. :raising_hands: È esattamente come mi piace vedere l’IA utilizzata.

Domanda veloce: quando un nuovo utente TL0 invia una risposta o un argomento, c’è un ritardo mentre il contenuto viene scansionato?

Vedo un breve ritardo nel tester integrato (screenshot qui sotto), ma quando pubblico da un account di prova, non c’è una pausa simile. La scansione live è asincrona dopo la pubblicazione, con il post nascosto solo se viola una regola? (contesto: sto usando l’API OpenAI ChatGPT 5.)

Per quello che vale, AI > Spam & Stats incrementa come previsto con l’account di prova, quindi il post viene scansionato; semplicemente non introduce lo stesso ritardo del pulsante Test.

image

Grazie.

Ok, questo funziona abbastanza bene, ma cosa succede quando segnala dozzine di argomenti/utenti. Non vedo un modo per bannare/eliminare in massa questi utenti/post.

Grazie per la discussione dettagliata. Abbiamo abilitato il rilevamento spam di Discourse AI sulla nostra istanza e una delle cose che stiamo riscontrando è l’impostazione predefinita di silenziamento automatico quando il primo post effettuato da un account viene contrassegnato.

Capisco che questo serva a silenziare gli spammer “usa e getta”; tuttavia, questo sta causando problemi in cui l’approvazione/accettazione di un flag significa che l’utente rimarrà silenziato nei casi in cui vogliamo approvare il flag ma non silenziare l’utente. Sarebbe utile avere:

  1. un pulsante “accetta e mantieni silenziato”, e
  2. un pulsante separato “accetta e revoca silenzio”.
2 Mi Piace

Questo è un punto difficile, non vogliamo paralizzare le persone con la scelta qui, ma capisco perfettamente che su larga scala questo possa essere un problema.

Lascia che verifichi con il team di xp aziendale, forse c’è una piccola personalizzazione che possiamo apportare al tuo forum.

1 Mi Piace

Ho pubblicato un post di prova di spam nel mio ambiente di sviluppo locale, ma non è entrato automaticamente in coda per la revisione.

Il risultato del rilevamento AI è effettivamente un post di spam.

Inoltre, soddisfa altre condizioni per entrare nella coda di revisione.

  1. Livello di fiducia dell’utente:

    • Scansiona i post degli utenti con un livello di fiducia di 1 o inferiore.

    • Esclude i post degli utenti con un livello di fiducia superiore.

  2. Tipo di post:

    • Post pubblici (escluse le conversazioni private).

    • Include i post di risposta e i post del primo argomento, in base ad altre soglie.

  3. Modifica del post:

    • Scansiona i post con modifiche significative (ad esempio, modifiche superiori a 10 caratteri).

    • Impone un ritardo di 10 minuti tra le scansioni dello stesso post.

  4. Frequenza dei post:

    • Dai priorità ai nuovi utenti che hanno pubblicato un totale di meno di 4 post nei thread pubblici.

    • Esclude i post degli utenti che superano questa soglia.

Tuttavia, il risultato finale è che non è entrato nella coda di revisione.

Dove dovrei controllare per trovare il problema?

Ciao @singi2016cn.

Intendi dire che l’hai verificato con lo strumento di test?

Puoi accedere a quello strumento seguendo queste istruzioni:

  1. Accedi al tuo forum con un account che abbia privilegi di amministratore.
  2. Naviga a questa pagina sul tuo forum: /admin/plugins/discourse-ai/ai-spam
  3. Fai clic sul pulsante “Testa…” in quella pagina.
    Si aprirà la finestra di dialogo “Testa il rilevamento spam”.
  4. Inserisci l’URL o l’ID del post spam di prova nel campo “URL o ID del post” nella finestra di dialogo.
  5. Fai clic sul pulsante “Esegui test”.
2 Mi Piace

Sì, lo strumento di test ha restituito chiaramente Spam, ma quando ho pubblicato lo stesso contenuto, non è entrato nella coda di moderazione.

Chi l’ha pubblicato? Hai usato un nuovo utente che hai creato per i test o hai usato, ad esempio, un account con permessi di moderatore?

Utente normale, livello di fiducia trust_level_1, non amministratore né moderatore.

Ecco l’insieme di istruzioni personalizzate che sto utilizzando per il rilevamento dello spam. È più dettagliato rispetto alla versione predefinita, quindi utilizzerà più token. Quali altri utilizzano per gli insiemi di istruzioni cliente per il rilevamento dello spam?

Insieme di istruzioni conciso per il rilevamento dello spam

Sei un sistema di rilevamento dello spam che esamina i post del forum.

Il tuo compito è determinare se un post è destinato principalmente a promuovere, ingannare, manipolare i ranking di ricerca, distribuire link dannosi o interrompere la discussione, piuttosto che partecipare sinceramente alla community.

Valuta:

  • Contenuto del post
  • Tipo di post (RISPOSTA o NUOVO ARGOMENTO)
  • Contesto del thread (per le risposte)
  • Informazioni sul sito

Classifica come spam se il post:

  • Promuove prodotti, servizi o siti esterni senza un coinvolgimento significativo
  • Contiene link promozionali sospetti, non correlati o multipli
  • Utilizza il riempimento di parole chiave in stile SEO o schemi ripetitivi
  • Appare automatizzato, basato su modelli o generato da bot
  • È irrilevante per l’argomento del forum
  • Per i post RISPOSTA: ignora il thread e inietta contenuti non correlati

Indicatori di spam forti includono:

  • Link di affiliazione/referral
  • Linguaggio di “Acquista ora”, sconti o saldi
  • Informazioni di contatto non correlate alla discussione
  • Lode generica + link
  • Struttura copia-incolla
  • Testo senza senso o generato dall’IA

NON classificare come spam solo perché:

  • L’utente è nuovo
  • L’inglese è imperfetto
  • Il post è breve
  • Il tono è entusiasta
  • Un prodotto o fornitore pertinente viene menzionato nel contesto

I segnali legittimi includono:

  • Riferimenti specifici al thread
  • Discussione tecnica pertinente all’argomento
  • Domande genuine
  • Esperienza personale relativa all’argomento del forum

Regola decisionale

Se l’intento primario appare promozionale, dannoso o dirompente → spam = true.
Se il post partecipa in modo significativo alla discussione → spam = false.

In caso di incertezza ma con più segnali di pericolo presenti, dare priorità alla sicurezza della community.


Formato di output

Restituisci solo JSON valido:

{“spam”: true o false, “reason”: “Breve spiegazione (1-2 frasi).”}

Non includere commenti aggiuntivi.

1 Mi Piace

Dovrebbe esserci un report sulla pagina Admin->Plugin->AI->SPAM che mostri i dettagli del riepilogo. Il riepilogo mostra il numero di post scansionati, lo spam rilevato e i falsi positivi e negativi.

  • Il report dettagliato esiste da qualche parte che non ho trovato?
  • Esiste una query di Data Explorer che fornisca i dettagli di livello inferiore?

Grazie in anticipo.

Questa ti fornisce tutti i dettagli

SELECT * FROM ai_spam_logs ORDER BY 1 DESC LIMIT 50
2 Mi Piace