Forum che vietano i contenuti AI… Come sta andando?

Mi piacerebbe ascoltare le esperienze dei forum che non ammettono contenuti generati da AI/LLM. Come avete fatto a comunicare questo ai vostri utenti? Come li rilevate? Come vi comportate con gli utenti che li pubblicano comunque?

Qualsiasi opinione è benvenuta.

1 Mi Piace

La maggior parte, se non tutta, del testo generato dall’IA può essere facilmente rilevata semplicemente leggendolo. La tecnologia SynthID di Google è interessante per il rilevamento di immagini generate dall’IA e sostiene di essere in grado di rilevare anche il testo, probabilmente scritto solo da Gemini, ma anche OpenAI supporta lo standard. Essere in grado di rilevare personalmente il testo è probabilmente una competenza acquisita, ma apprezzo il lavoro svolto per rispondere alla crisi attuale che abbiamo riguardo alla mancata capacità di rilevare immagini o testo generati dall’IA.

Il silenziamento o le sospensioni sono ancora, secondo me, la strada giusta da seguire, soprattutto se l’account è nuovo. Se un nuovo account a caso si iscrive al tuo sito e pubblica immediatamente un argomento generato dall’IA, non vedo motivo per cui non dovresti semplicemente sospendere l’account e bloccarlo.

Per quanto riguarda il dilemma dello scraping: il mio sito è attualmente utilizzato per la comunicazione interna e la documentazione all’interno di una piccola azienda e ho intenzione di usarlo come backend per il blogging in futuro. Non è stato difficile configurare un honeypot per scoraggiare i crawler che scelgono di ignorare i file robots.txt sui miei domini.

Solo questa tattica ha portato a circa 6 MILIONI di richieste nell’arco di due settimane (circa 6 richieste al secondo verso il dominio):

Ogni volta che un crawler dell’IA visita detto sito, viene guidato in un labirinto infinito di spam utilizzando il progetto iocaine self-hosted con un dataset di circa 7000 parole inventate, alcuni HTML spazzatura, parole casuali e notizie false generate da Llama 8B.

Ovviamente questa è una tattica nucleare di “vai via” e non è adatta a tutti, ma è stata ottima per me nel mio obiettivo di impedire che i LLM rubino il mio codice o i miei contenuti testuali. Ricordo di aver letto uno studio di caso condotto da Anthropic sull’avvelenamento dei LLM, ma non riesco più a trovare l’articolo, quindi non lo allego qui, ma sicuramente in qualche momento dovranno bloccare il mio dominio quando si renderanno conto che il bot ha inviato circa 5 milioni di richieste al mio dominio di recente.

2 Mi Piace