Mi piacerebbe ascoltare le esperienze dei forum che non ammettono contenuti generati da AI/LLM. Come avete fatto a comunicare questo ai vostri utenti? Come li rilevate? Come vi comportate con gli utenti che li pubblicano comunque?
La maggior parte, se non tutta, del testo generato dall’IA può essere facilmente rilevata semplicemente leggendolo. La tecnologia SynthID di Google è interessante per il rilevamento di immagini generate dall’IA e sostiene di essere in grado di rilevare anche il testo, probabilmente scritto solo da Gemini, ma anche OpenAI supporta lo standard. Essere in grado di rilevare personalmente il testo è probabilmente una competenza acquisita, ma apprezzo il lavoro svolto per rispondere alla crisi attuale che abbiamo riguardo alla mancata capacità di rilevare immagini o testo generati dall’IA.
Il silenziamento o le sospensioni sono ancora, secondo me, la strada giusta da seguire, soprattutto se l’account è nuovo. Se un nuovo account a caso si iscrive al tuo sito e pubblica immediatamente un argomento generato dall’IA, non vedo motivo per cui non dovresti semplicemente sospendere l’account e bloccarlo.
Per quanto riguarda il dilemma dello scraping: il mio sito è attualmente utilizzato per la comunicazione interna e la documentazione all’interno di una piccola azienda e ho intenzione di usarlo come backend per il blogging in futuro. Non è stato difficile configurare un honeypot per scoraggiare i crawler che scelgono di ignorare i file robots.txt sui miei domini.
Ogni volta che un crawler dell’IA visita detto sito, viene guidato in un labirinto infinito di spam utilizzando il progetto iocaine self-hosted con un dataset di circa 7000 parole inventate, alcuni HTML spazzatura, parole casuali e notizie false generate da Llama 8B.
Ovviamente questa è una tattica nucleare di “vai via” e non è adatta a tutti, ma è stata ottima per me nel mio obiettivo di impedire che i LLM rubino il mio codice o i miei contenuti testuali. Ricordo di aver letto uno studio di caso condotto da Anthropic sull’avvelenamento dei LLM, ma non riesco più a trovare l’articolo, quindi non lo allego qui, ma sicuramente in qualche momento dovranno bloccare il mio dominio quando si renderanno conto che il bot ha inviato circa 5 milioni di richieste al mio dominio di recente.