Mi piacerebbe conoscere le esperienze dei gestori di forum che non consentono contenuti generati da AI/LLM. Come avete fatto a comunicare questa policy agli utenti? Come rilevate questi contenuti? Come vi comportate con gli utenti che li pubblicano comunque?
Accogliamo con favore qualsiasi contributo.
Nota: personalmente, mi interessa solo l’aspetto umano delle interazioni front-end sul sito. Presumo che bloccare i crawler sia una battaglia persa.
Il nostro forum è dedicato a discussioni di natura spirituale e religiosa. Bandiamo qualsiasi contenuto generato da IA.
La maggior parte, se non tutta, del testo generato dall’IA può essere facilmente rilevata semplicemente leggendolo. La tecnologia SynthID di Google è interessante per il rilevamento di immagini generate dall’IA e sostiene di essere in grado di rilevare anche il testo, probabilmente scritto solo da Gemini, ma anche OpenAI supporta lo standard. Essere in grado di rilevare personalmente il testo è probabilmente una competenza acquisita, ma apprezzo il lavoro svolto per rispondere alla crisi attuale che abbiamo riguardo alla mancata capacità di rilevare immagini o testo generati dall’IA.
Il silenziamento o le sospensioni sono ancora, secondo me, la strada giusta da seguire, soprattutto se l’account è nuovo. Se un nuovo account a caso si iscrive al tuo sito e pubblica immediatamente un argomento generato dall’IA, non vedo motivo per cui non dovresti semplicemente sospendere l’account e bloccarlo.
Per quanto riguarda il dilemma dello scraping: il mio sito è attualmente utilizzato per la comunicazione interna e la documentazione all’interno di una piccola azienda e ho intenzione di usarlo come backend per il blogging in futuro. Non è stato difficile configurare un honeypot per scoraggiare i crawler che scelgono di ignorare i file robots.txt sui miei domini.
Ogni volta che un crawler dell’IA visita detto sito, viene guidato in un labirinto infinito di spam utilizzando il progetto iocaine self-hosted con un dataset di circa 7000 parole inventate, alcuni HTML spazzatura, parole casuali e notizie false generate da Llama 8B.
Ovviamente questa è una tattica nucleare di “vai via” e non è adatta a tutti, ma è stata ottima per me nel mio obiettivo di impedire che i LLM rubino il mio codice o i miei contenuti testuali. Ricordo di aver letto uno studio di caso condotto da Anthropic sull’avvelenamento dei LLM, ma non riesco più a trovare l’articolo, quindi non lo allego qui, ma sicuramente in qualche momento dovranno bloccare il mio dominio quando si renderanno conto che il bot ha inviato circa 5 milioni di richieste al mio dominio di recente.
(Noto che stiamo mettendo da parte la questione del carico sui crawler, dei crawler che prelevano contenuti per l’addestramento e delle conseguenze sociali ed economiche degli attuali rapidi sviluppi. Questo è un bene.)
Per quanto mi riguarda, in un sito hobby a basso traffico,
stiamo cercando di concordare e formulare una politica scritta
gestiamo le cose man mano che si presentano
gli esempi più eclatanti sono essenzialmente spam, quindi li eliminiamo e banniamo
altrimenti, contestiamo, forse pubblicamente e forse privatamente, e potremmo eliminare i post
Una forma suggerita di guida potrebbe assomigliare a questa:
Possedere" i contenuti dei messaggi che pubblichi (cioè leggere e comprendere, e non copiare e incollare acriticamente contenuti, indipendentemente dalla loro origine).
Cercare di rispondere da solo alle tue domande nel miglior modo possibile prima di aprire nuove discussioni (ad esempio cercando nel forum).
Comunicare i dettagli in modo conciso in modo che altri utenti possano leggere e comprendere per aiutare, cioè evitare lunghi muri di testo ripetitivo o irrilevante, o affermazioni troppo generiche senza informazioni sufficienti.
Mantenere le discussioni pertinenti all’argomento, evitare discussioni meta (in particolare sull’uso dell’IA - che si tratti di “migliori pratiche” o “etiche ad esse connesse”).
Mantenere i conversazioni rispettose e ricordare che abbiamo utenti con background, visioni e opinioni diversi.
Divertiti! Questo dovrebbe essere un hobby.
(Nel nostro ambiente hobby, c’è un’ulteriore angolazione, che è l’uso di LLM all’interno dell’hobby, che copre uno spettro di possibilità e ha sia i suoi entusiasti che i suoi detrattori.)