Un forum che aiuto sta riscontrando un’ondata di registrazioni di account spam negli ultimi mesi. Si tratta quasi certamente di bot AI, poiché sembrano in grado di compilare moduli di registrazione (in pratica, selezionare caselle), risolvere un hCaptcha e gestire l’email di verifica, persino le informazioni del profilo utente. Di solito possiamo indovinare quali registrazioni sono false in base a alcuni fattori (ad esempio, tempo di lettura degli articoli pari a zero, alcune sottili sfumature sui nomi/indirizzi email, informazioni utente palesemente false), ma non è facile (ad esempio, sono spesso indirizzi Gmail legittimi). Tuttavia, questo processo non è sostenibile: a volte abbiamo avuto 10 falsi al giorno, ed è fin troppo facile commettere errori data la nostra limitata capacità di triage.
L’aggiunta di captcha ha ridotto il numero di registrazioni false, ma abbiamo ancora un gran numero di utenti in attesa di approvazione, il che significa che spesso passano una o due settimane prima che i nuovi utenti possano unirsi. Abbiamo considerato questionari basati su testo per i nuovi utenti, ma la realtà è che non abbiamo la capacità di leggere una serie di domande e indovinare se sono generate dall’AI o meno (e: questo problema diventerà solo più difficile).
Un’opzione è semplicemente consentire a questi utenti di unirsi, e poi segnalarli se pubblicano qualcosa di palesemente spam? Penso che siamo restii ad aprire le porte a questo, poiché semplicemente sposta il processo da un luogo (registrazione) a un altro (post segnalati) e il gatto non può essere rimesso nella borsa: cento utenti AI latenti che iniziano lentamente a pubblicare nel corso di alcuni mesi potrebbero facilmente rovinare completamente il forum.
Qualcuno ha strategie per aiutare ad affrontare questo problema? Siamo relativamente piccoli, quindi non riesco a immaginare che siamo gli unici a riscontrarlo…
Per quanto riguarda gli account utente AI, puoi spiegare meglio quale “danno” causano se gli utenti non pubblicano mai?
Abbiamo apportato una modifica un mese fa in cui sopprimiamo i profili di utenti anonimi e con bassa fiducia finché un utente non pubblica effettivamente, in modo che lo spam sia nascosto.
Un approccio interessante secondo me, se il volume è davvero alto, sarebbe quello di eliminare gli account dopo 30 giorni se non pubblicano, devono rivelarsi o verranno eliminati.
Il rilevamento dello spam AI ha avuto un successo spettacolare in tutti i forum in cui lo abbiamo abilitato, puoi usarlo sul tuo forum con alcuni modelli gratuiti come il livello gratuito di Gemini. Forniamo ai nostri clienti l’accesso al nostro modello, ma questo non è ampiamente disponibile per chi lo ospita autonomamente.
Un piccolo problema che vedo con Discourse… è l’ignorare la possibilità di utilizzare CloudFlare Turnstile nativamente. È onestamente una delle migliori soluzioni per Captcha che ho trovato, e gestisco uno script per forum a pagamento che lo utilizza e riceve pochissimo spam, anche se ricevo molte nuove registrazioni di utenti. La maggior parte di quelli spazzatura viene catturata da Turnstile.
Non capisco davvero perché Discourse, dopo tutto questo tempo, non abbia ancora abilitato le offerte disponibili nel core.
Quando eravamo inondati, gli account AI superavano di 10 a 1 i nuovi account utente reali, il che rendeva alcune cose di amministrazione del forum molto impraticabili. C’era una paura a livello meta da parte dei moderatori che avere un forum in cui un’enorme percentuale o la maggioranza degli utenti fossero AI/spambot potesse avere il potenziale per danni reali in futuro, anche se stessero solo in agguato per il momento. Ad esempio, se tra un anno centinaia di utenti falsi iniziassero tutti a fare post plausibili ma inutili, abbiamo immaginato che ciò potrebbe facilmente sopraffare la nostra capacità di tenere il passo e rendere l’intero forum piuttosto inutile
Va un po’ meglio ora per quanto riguarda i nuovi iscritti, ma penso che sia preferenza di tutti non avere questo problema di utenti inattivi se possiamo evitarlo. Il nostro forum è già stato aggressivamente scansionato per l’addestramento AI (è un’area di nicchia, quindi almeno nelle versioni GPT più vecchie era possibile far ripetere a GPT citazioni quasi dirette dai post del forum se si faceva la domanda giusta), quindi tutti sono un po’ risentiti per questo.