Sono curioso di sapere dai membri della community se stanno riscontrando spam basato sull’IA o un aumento di esso.
Nello specifico, vorrei vedere risposte a domande che sembrano basate su ChatGPT e che appaiono innaturali o presentano allucinazioni (un problema comune con gli LLM).
Sto riscontrando spam basato sull’IA
Sì
No
0voters
Se la risposta è sì, sono curioso di sapere…
Con quale frequenza sta accadendo?
Quanto problema sta creando nella tua community?
Cosa stai facendo al riguardo al momento?
Se la risposta è no, sono curioso di sapere…
Come stai prevenendo che ciò accada?
Ci sono ragioni per cui la tua community non affronta intrinsecamente questo problema?
Usiamo l’IA solo come strumento per cercare conoscenza, forse per una chiacchierata informale.
Forse la nostra community è piccola e ha il buon senso che le allucinazioni siano MALE
Ritengo che il modo più efficace per fermare qualsiasi tipo di spam sia essere membri di una lingua molto piccola e difficile. Ferma quei pagliacci che fanno lavoro manuale.
Beh, sappiamo tutti che gli spammer non sono così intelligenti e il traffico automatico non si preoccupa della lingua, del genere o persino delle dimensioni. Quindi, ci deve essere un altro motivo per cui alcuni forum o siti sono come calamite per ogni tipo di spazzatura e altri vivono senza drammi.
Per il motivo per cui gli spammer possono iscriversi lì e non altrove quando il sistema e la configurazione dovrebbero essere identici, non ho una risposta. Ma una cosa è certa: la necessità dell’amministratore o di altre forze di background di aumentare la rapida crescita da un pubblico globale porterà a problemi di bot e spam.
Nelle ultime due settimane circa, abbiamo visto un picco sul nostro sito. Stiamo vedendo spam tipico con link nascosti nelle nuove risposte da nuovi account. Quando abbiamo aumentato la reputazione per la creazione di nuovi post, abbiamo visto aumentare le risposte generate dall’IA, e sembrava che i bot stessero cercando di aumentare lentamente la loro reputazione su account fasulli. Queste risposte non hanno link evidentemente fasulli, hanno solo testo generico di IA che non contribuisce a rispondere alla domanda.
Siamo stati colpiti durante un fine settimana con un grande picco di post di spam, abbastanza da far creare a qualcuno un nuovo argomento dicendo che c’era troppo spam sul nostro forum. Da allora, gli amministratori devono controllare il sito ogni giorno per ripulire i post fasulli di IA. Stiamo anche vedendo post di IA su account che sono stati creati in passato e non avevano attività, il che fa sembrare che alcuni bot di spam stessero seminando account per un po’ e lasciandoli inattivi. Ora stanno cercando di superare lentamente i limiti di coinvolgimento in modo da poter pubblicare nuovi argomenti.
Come notato sopra, abbiamo aumentato i livelli di fiducia per la pubblicazione di nuovi argomenti. Abbiamo anche abilitato akismet. Ma questo non ha fermato i post di spam di IA. Attualmente abbiamo bisogno di un amministratore/moderatore per controllare il forum ogni giorno per rivedere i post segnalati e ripulire. Alcuni sono impegnativi e sembrano poter essere una persona, quindi due persone devono controllare.
Abbiamo incoraggiato i nostri utenti ad aiutare e segnalare i post che sembrano di IA e questo ha aiutato.
Il nostro forum ha un volume abbastanza basso e funziona da anni con pochissima pulizia e manutenzione da parte degli amministratori, ma sembra che i bot di IA ci abbiano trovato. Sto pensando che l’IA potrebbe essere necessaria per fermare l’IA?
Sì, purtroppo. O in alternativa, si possono semplicemente approvare temporaneamente tutti i nuovi utenti e rallentare il tempo da “quando un utente si iscrive” fino alla pubblicazione.
Abbiamo:
Supporta anche la segnalazione, quindi potresti usarla oggi.
Non ne ho ancora visto molto, ma il mio forum tiene i primi post in moderazione e di solito riesco a capire se qualcuno potrebbe essere uno spammer da certi indizi. Bloccco quelli sospetti a TL0 finché non pubblicano qualcosa che è chiaramente pertinente.
Non è un forum “chatta di cose a caso”, quindi di solito è possibile capire se qualcuno sta fingendo interesse dal primo post.
In realtà, mi sono appena imbattuto in un utente che è sfuggito al controllo e sta postando con ChatGPT o altre IA. Potrebbero esserci altri account di spam che mi sono sfuggiti.
Alcune idee su come combatterlo:
Creare un database di provider VPN. L’indirizzo IP di questo utente proviene da “M247 Europe SRL”, che è un provider di servizi VPN. Ho sempre desiderato un qualche tipo di notifica quando un nuovo account utilizza una VPN. Al momento devo farlo manualmente.
Tenere traccia del tempo di lettura, dei giorni di visita, degli argomenti/post letti. Questo utente ha trascorso 8 minuti a leggere il sito ma ha pubblicato 6 commenti e ha visitato solo 3 volte il giorno della sua registrazione. L’utente è effettivamente ancora TL0 naturalmente, perché non ha fatto altro che pubblicare commenti.
Ho scritto altre idee nei commenti su questa pagina.
Mi chiedo se sia possibile classificare approssimativamente gli utenti in base al rapporto tra il tempo trascorso sul sito e il numero di parole scritte, oltre ad altri segnali come VPN, contenuti incollati, contenuti iniettati, ecc. Gli account sospetti potrebbero essere contrassegnati per la revisione.
Modifica: questa rapida query di Data Explorer ne ha scoperti alcuni altri, anche se alcuni di essi erano già sospesi.
SELECT
u.id,
u.created_at,
u.username,
u.trust_level,
us.time_read,
us.days_visited,
us.topics_entered,
us.post_count,
us.topic_count
FROM users u
LEFT JOIN user_stats us
ON us.user_id = u.id
WHERE u.trust_level < 1
AND u.created_at > '2023-01-01'
AND us.time_read < 1000 -- secondi
AND us.post_count > 1
Uno al giorno. Schema sui forum con circa 2000 utenti (500 all’anno nuovi):
un nuovo utente si iscrive con un dominio email dalla categoria “dominio temporaneo” come “cetnob.com”.
entro poche ore crea un nuovo argomento o risponde a un argomento esistente
crea testo solo nelle sezioni in inglese (sito bilingue, con oltre il 90% NON in inglese)
a volte include un URL nel testo, a volte no
il testo sembra una domanda o un commento reale, utilizzando parole usate unicamente sui forum e materiale pertinente
ma il testo sembra leggermente fuori tema, ma comunque molto buono: un ingegnere di supporto inesperto non potrebbe rilevarlo
Assomiglia molto nello schema allo schema descritto in:
Stiamo già bloccando hotmail, gmail e altri domini orientati ai consumatori utilizzando un elenco esplicito, ma ci sono almeno 10.000 domini a noi noti che vengono utilizzati per questo tipo di approccio. Nel nostro software abbiamo un elenco esplicito più un controllo in tempo reale su UserCheck (utilizziamo la variante gratuita e controlliamo solo all’iscrizione sulle nostre app e nella cache, quindi 5000 ricerche al mese sono sufficienti).
Da quello che ho visto, questo comportamento specifico può essere affrontato bloccando automaticamente i domini email temporanei/spam.
Bloccare TL0 dall’uso di link non è considerato più praticabile che moderare tutte le nuove richieste, poiché molti utenti pubblicano direttamente dopo la prima iscrizione, essendo il sito un portale di supporto.
Ultimamente sto ricevendo molti spammer AI, e richiede molto tempo esaminarli.
Con lo spammer attuale che sto analizzando, il testo è scritto in un inglese perfetto, è una VPN, l’indirizzo email è su StopForumSpam e posso dire che il contenuto è stato copiato/incollato perché il carattere trattino utilizzato non esiste sulle tastiere. Ho dovuto controllare tutto manualmente e ho ancora diverse cose da esaminare stamattina.
Brainstorming di un’altra idea:
Quando un post viene salvato, Discourse potrebbe registrare dati aggiuntivi in un campo JSONB su quel post:
Indirizzo IP
is_vpn? — una ricerca in maxmind per trovare l’organizzazione e vedere se è una VPN (ad es. PacketHub S.A.)
Una rapida ricerca dell’indirizzo email in StopForumSpam
Un confronto tra il numero di caratteri immessi nell’editor e il numero di caratteri che producono output digitati (esclusi tasti freccia, ctrl, ecc.). Ad esempio, l’utente ha immesso 1.000 caratteri nel contenuto grezzo, ma ha premuto tasti che producono output solo 10 volte (suggerendo che il contenuto è stato incollato e l’utente potrebbe poi aver modificato una parola).
Numero di volte in cui il contenuto è stato copiato o tagliato utilizzando scorciatoie da tastiera o clic destro.
Numero di volte in cui il contenuto è stato incollato utilizzando scorciatoie da tastiera o clic destro. La differenza nei numeri di copia/incolla fornirebbe un ulteriore indizio.
I moderatori potrebbero visualizzare quei dati sui post in una piccola tabella. Valori insoliti potrebbero essere evidenziati in modo che i post sospetti risaltino.
Probabilmente non esiste un metodo perfetto per automatizzare il rilevamento, ma avere maggiori informazioni accelererebbe il processo di moderazione.
Non ho utilizzato l’IA nei miei forum perché è costosa. Inoltre, non sono convinto che l’IA sarebbe in grado di risolvere questo problema, perché il contenuto sembra normale. Dovrei comunque indagare manualmente su ogni post sospetto.
Non ho avuto problemi con contenuti NSFW.
Il mio problema non è che ci sia qualcosa di sbagliato nel contenuto. Le uniche cose sospette sono che i nuovi utenti non scrivono post del genere pochi minuti dopo la registrazione, e il contenuto è anche alquanto vago. Il mio forum principale ha un argomento molto specifico, e se un primo post non dice qualcosa di specifico sulla relazione della persona con quell’argomento, avvio il processo di indagine. Altrimenti potrei non notare i loro post.
Ecco un paio di esempi. Il contenuto è abbastanza vago da farmi avviare il processo di indagine, ma richiede tempo perché devo farlo manualmente.
Non posso bannare questo utente basandomi solo sul contenuto. Sono gli altri indizi che mi dicono che si tratta di uno spammer.
Questo indirizzo IP era una VPN in Norvegia e il contenuto era troppo vago. Sono stato in grado di confermarlo perché l’indirizzo email era in StopForumSpam con un indirizzo IP dalla Germania:
Sto solo pensando ad alta voce qui, ma sarebbe più veloce moderare questi utenti se ci fosse una piccola tabella sui post che dicesse qualcosa del tipo:
location
Oslo, Norvegia [da maxmind]
organization
PacketHub S.A. [da maxmind]
is_vpn
true
email
whatever@example [a volte questo fornisce indizi]
stopforumspam
true [link]
characters_output
1.234
characters_output_pressed
10 [questo non corrisponde al numero di caratteri nel post, quindi è un indizio]
num_cut_or_copy
0 [non ho copiato testo dall’editor]
num_paste
1 [ho fatto un incolla]
seconds_editor_open
20 [sospetto per un post di quella lunghezza]
Forse la tabella potrebbe essere collassata a meno che non ci sia un valore sospetto e/o i moderatori potrebbero contrassegnare un utente specifico come “probabilmente non spam”, il che collasserebbe la tabella su tutti i loro post o interromperebbe le ricerche future per quell’utente. Oppure l’utente potrebbe essere automaticamente contrassegnato come sicuro al raggiungimento di TL2.
È una combinazione di cose:
La VPN o l’indirizzo IP tende a trovarsi in un piccolo numero di paesi dove ci sono molte società SEO (India, Pakistan, Ucraina, Vietnam, Bangladesh).
A volte gli indirizzi email sono in StopForumSpam.
Gran parte del contenuto viene incollato nell’editor, ma probabilmente non tutto.
Gli indirizzi email spesso non corrispondono al nome utente. Ad esempio, il nome utente sarà “Bob Smith” e l’indirizzo email sarà qualcosa di diverso come stevenjohnee1234@example.
Il contenuto grezzo a volte utilizza caratteri di punteggiatura formattati come virgolette intelligenti o mdash, suggerendo che il contenuto non è stato scritto nell’editor di Discourse.
Dai un’occhiata al post 1622105 qui in questo forum. È stato pubblicato 3 minuti dopo la registrazione, modificato manualmente per cambiare il link da Quora a stackexchange, e l’inglese è buono, ma parla di tecnologia non pertinente a Discourse. Non voglio collegarlo perché notificherebbe il poster.
Questo è il tipo di post in cui sarebbe utile vedere i dati che ho menzionato sopra direttamente nel post.
Molto di questo sembra esperienza del personale vs IA. Chiamerò le persone giuste sull’argomento.
Penso che sembri convincente provare a potenziare parte del rilevamento di “digitazione veloce” che abbiamo già. Avere SFS integrato nel core potrebbe anche essere convincente.
C’è ovviamente la profonda domanda filosofica:
È spam se aggiunge valore al forum (anche se generato dall’IA)
Dovrebbe essere rimosso dal forum se non aggiunge valore al forum (anche se generato dall’uomo)
Penso che il suggerimento di rendere più metadati disponibili ai moderatori sia una buona idea. Indipendentemente dal miglioramento delle funzionalità automatiche.
Lascio online alcuni post di spammer quando provocano discussioni, ma la maggior parte viene eliminata. La qualità è molto bassa, ed è spesso facile capire quando qualcosa è scritto dall’IA. Se sento che qualcosa che sto leggendo è generato dall’IA, inizio a perdere fiducia nella fonte. Non sono un luddisto dell’IA, ma non voglio leggere contenuti generati dall’IA a meno che non sappia che sono generati dall’IA.
Se vedo che qualcuno sta usando l’IA nel forum, lo fermo immediatamente perché contenuti affidabili sono una delle risorse più importanti del forum.
Inoltre, ciò che sembra passabile agli umani nel 2024 potrebbe essere facile da rilevare come IA nel 2034, un po’ come gli effetti cinematografici che un tempo sembravano realistici decenni fa sono ora immediatamente rilevabili come falsi. Penso che i contenuti generati dall’IA dal 2024 sembreranno datati alla fine.