Come impedire che i contenuti della community vengano utilizzati per addestrare LLM come ChatGPT?

agemo · 6 Luglio 2023, 9:33am

C’è accordo sul fatto che creare una Categoria, essenzialmente PRIVATA, sia un modo sicuro per bloccare non solo tutti i bot ma anche gli LLM o chiamiamoli bot AI?

Onestamente, dall’aver affrontato la questione in almeno un argomento e anche dalla ricerca su ChatGPT, Discourse come molte altre offerte software là fuori non stanno prendendo sul serio la minaccia e gli aspetti distruttivi di ChatGPT IMHO, c’è bisogno di una seria riflessione sul fornire supporto e funzionalità per i proprietari di siti e gli amministratori che non desiderano utilizzare alcuna IA.

ChatGPT e tutto ciò per cui è sinonimo è una di quelle situazioni in cui la miccia è stata accesa, da entrambe le estremità.

Bas · 6 Luglio 2023, 9:39am

Sì, è un modo piuttosto sicuro.
Attori completamente malvagi saranno ancora in grado di registrarsi, ovviamente, ma dovrebbe rimuovere tutti i crawler legittimi.

Nota: ho cancellato il tuo commento in cui hai taggato alcuni co-fondatori, sembra eccessivo.

agemo · 6 Luglio 2023, 9:55am

Il tempo ci dice che non è eccessivo. Le teste devono svegliarsi. Vedo un pregiudizio che genera un grosso punto cieco, questa è anche un’osservazione a livello di settore, ma per quanto ne so Discourse non sembra diverso.

Se l’unica opzione è rendere di nuovo privato l’intero forum, eh, il “mercato” è cambiato non solo in un modo, ma in molti molti modi così fondamentalmente che deve essere affrontato a qualche livello operativo.

Ciò che è eccessivo è ChatGPT e i suoi effetti, rapaci non descrive nemmeno la metà di ciò che sta succedendo, ovunque.

Questo mina fondamentalmente ogni singolo forum e tutto il contenuto creato dall’uomo. Potresti essere comodo ora a giocare con le finezze e i “what if” filosofici, ma quel tempo è passato. La cosa è ora allo stato brado. Le decisioni devono essere prese da chiunque abbia un dito nell’acqua del world wide web.

Bas · 6 Luglio 2023, 9:59am

Ciò che ho detto è eccessivo (e ciò che ho cancellato) è aver contattato due cofondatori/ceo per un follow-up a sole 17 ore dalla richiesta di una domanda puramente tecnica.

Le tue paure riguardo agli LLM sono reali e comprensibili, anche se non sono d’accordo con esse.

agemo · 6 Luglio 2023, 11:23am

Capisco, ma non riesci a capire l’urgenza, che la risposta a una domanda tecnica abbia esiti e conseguenze così profonde che non sono affatto tecniche in termini umani.

Tante implicazioni eppure tutti camminano nel sonno, indicativo della mancanza di preoccupazione a tutti i livelli.

Grazie per quella risposta.

Abbiamo solo un martello per rompere una noce o la noce è in realtà una noce a punto zero infinito e il nostro martello è davvero un parto della fantasia di una piuma.

Ha senso?

pfaffman · 7 Luglio 2023, 5:18am

Penso che tu capisca.

Se il tuo sito consente agli utenti anonimi di leggere informazioni, non hai alcun controllo su chi ottiene tali informazioni o su cosa ne farà. La mia comprensione è che Google ha appena cambiato la sua politica per affermare che tutto ciò che possono leggere, possono usarlo per la loro IA.

Se il tuo sito consente agli utenti connessi di leggere il tuo sito, non hai alcun controllo su ciò che quegli utenti ne faranno.

Se il tuo sito consente agli utenti di accedere, non sai necessariamente che la persona che utilizza le credenziali sia la persona che ha creato l’account. Se vuoi essere sicuro che nessuno possa utilizzare i tuoi dati in un’IA, puoi semplicemente scollegare la sua connessione di rete.

Jagster · 7 Luglio 2023, 5:46am

C’è un piccolo controllo quando si utilizza un proxy inverso, fino a quando non cambiano o utilizzano un user agent falso (o utilizzano indirizzi IP diffusi, ma quel modo è difficile e accidentato).

sam · 7 Luglio 2023, 7:14am

Fammi sapere se riesci a sviluppare un libro magico che gli occhi umani possano vedere ma che nessuna macchina fotografica al mondo possa fotografare

Molto curioso riguardo a questa tecnologia magica

Per quanto riguarda il forum che stai ospitando sulla piattaforma Discourse, il tuo forum / le tue regole. Alcune regole possono essere applicate automaticamente, altre no (ad esempio: le persone con gli occhi azzurri potrebbero non leggere questo forum)

agemo · 7 Luglio 2023, 8:54am

Nessuno sta prendendo sul serio questa cosa perché penso che nessuno voglia ammettere e afferrare la vera portata di questo evento, e poi dover effettivamente cercare di fare qualcosa al riguardo all’interno del proprio dominio di controllo, ed è più facile unirsi alla corsa verso la fine, e incorporare l’IA nel proprio software, pensando di agire come il mercato si aspetta e di essere all’avanguardia, essendo vitali. È qui che gli ultimi decenni di eccessivo relativismo morale a cui è stato permesso di agire liberamente a tutti i livelli consentono la grande rovina delle cose e la tecnologia la fa accadere alla velocità della luce, perché è come se;\n\ntutti avessero dimenticato il motivo per cui sono qui.

HAWK · 7 Luglio 2023, 9:06am

La rallenterò un po’.

Ascoltiamo le vostre preoccupazioni, semplicemente non le condividiamo e va bene così. Possiamo essere in disaccordo. Stiamo prendendo decisioni informate. Nessuno ve le sta imponendo.

agemo · 7 Luglio 2023, 9:08am

@satonotdead esatto

simon · 7 Luglio 2023, 5:31pm

OpenAI ha utilizzato alcuni set di dati per addestrare i propri modelli. Il set di dati che sembra più probabile includere contenuti di Discourse è una versione filtrata del set di dati Common Crawl. Vedere la sezione 2.2 di questo documento per i dettagli: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl utilizza la stringa user-agent CCBot/2.0 durante il crawling di un sito.

Se desideri mantenere il tuo sito Discourse accessibile al pubblico, ma impedire che i suoi contenuti vengano aggiunti al set di dati Common Crawl in futuro, puoi aggiungere CCBot all’impostazione blocked crawler user agents del tuo sito Discourse. Tieni presente che potrebbe esserci uno svantaggio nel bloccare l’user agent di Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):

Molti set di dati, incluso Common Crawl, potrebbero essere utilizzati da aziende che filtrano e categorizzano URL al fine di creare elenchi di siti Web da targettizzare con pubblicità.

L’uso di Discourse dell’impostazione blocked crawler user agents è qui: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Nota che Common Crawl rispetta le regole nel file robots.txt, quindi potrebbe anche essere bloccato aggiungendo la seguente regola al file:

User-agent: CCBot
Disallow: /

I plugin di ChatGPT utilizzano l’user agent ChatGPT-User quando effettuano richieste per conto degli utenti. Questo user agent non viene utilizzato per il crawling del Web per creare set di dati di addestramento: https://platform.openai.com/docs/plugins/bot. Anche questo user agent potrebbe essere bloccato aggiungendolo all’impostazione blocked crawler user agents (o aggiungendo una regola Disallow al file robots.txt).

Come altri hanno notato, il modo più affidabile per impedire che il tuo sito venga utilizzato per addestrare LLM sarebbe impedire l’accesso anonimo al sito abilitando l’impostazione del sito login required. Per rafforzare ulteriormente il sito, si potrebbero adottare misure per aumentare la probabilità che gli utenti sul tuo sito siano umani e non bot. Un possibile approccio sarebbe integrare un servizio come Gitcoin Passport con il sistema di autenticazione del sito. Ritengo che un plugin Gitcoin Passport open source per Discourse verrà presto sviluppato.

Potrebbero esserci altri modi meno tecnici per aumentare la probabilità che gli utenti sul sito siano umani. Ad esempio, il sito potrebbe essere impostato su invite only e si potrebbero adottare misure per assicurarsi di invitare al sito solo utenti che si ritiene siano umani.

Trovo la filosofia alla base di tutto ciò super interessante, ma non mi addentrerò in questo argomento in questo topic.

agemo · 7 Luglio 2023, 7:47pm

Mi oppongo fermamente alla continua moderazione dei miei tentativi di affrontare questo argomento in modo serio e approfondito, il “slow stick” è uno scherzo, dover aspettare un’ora ogni volta.

Ci sono un sacco di post vaganti che rimangono da parte di molti utenti. Coerenza no, pregiudizio, hmmm, beh, così sembra a questo utente finora e non la prendo sul personale, ma la moderazione geriatrica soffoca, a dir poco.

Sto solo cercando di elevare questa situazione così seria ed eclatante, e finalmente otteniamo un post eccellente e serio da @simon

Superbo e centrato esattamente ciò che l’OP e gli altri dovevano sentire per primi. Molte opzioni sono sepolte nell’estesa sezione di amministrazione, e io, per quanto mi riguarda, non avevo notato questa funzionalità/opt-in prima. Ora posso provarla, sarebbe bello se potesse avere più informazioni personalizzate rispetto alla scheda predefinita. Forse la gestione del testo personalizzato può farlo, qualcuno lo sa?

Molte grazie.

Falco · 14 Luglio 2023, 8:26pm

Se questo articolo è corretto

Dovrai rimuovere il tuo sito da Internet aperto / bloccare Google / abilitare login_required.

awesomerobot · 14 Luglio 2023, 9:19pm

Vale la pena notare che non c’è assolutamente nulla che richieda a un crawler di obbedire a robots.txt e falsificare uno user-agent è banale. Non ci sono leggi che regolano queste cose. Nessuna quantità di urgenza o serietà cambierà questo. Se sei preoccupato che i tuoi dati vengano utilizzati, tutto ciò che puoi fare è rendere privato il tuo sito e attendere che si definiscano vari procedimenti legali relativi ai dati di addestramento.

simon · 15 Luglio 2023, 1:06am

Mi aspetto che i siti che si affidano alla pubblicità vedano un calo delle entrate e inizieremo a vedere molti più contenuti dietro paywall. La qualità della parte libera e aperta di Internet sarà diluita.

Discourse potrebbe effettivamente capitalizzare su questa tendenza creando un servizio in abbonamento per i suoi clienti ospitati.

merefield · 15 Luglio 2023, 5:41am

Esiste già un plugin per gli abbonamenti che potrebbe essere disponibile per alcuni livelli su hosted. I siti self-hosted possono già adottarlo.

Il problema con l’occultamento dei contenuti è che influenzerà la tua SEO, quindi potrebbe dipendere da qual è il tuo funnel per i nuovi utenti.

Personalmente mi affido alla ricerca per acquisire nuovi utenti, quindi metto solo una piccola parte dei contenuti dietro un muro per account.

Per molti siti devi ancora essere scoperto!

Ed_S · 15 Luglio 2023, 4:17pm

Mi sembra che tu abbia due preoccupazioni correlate, @agemo, una riguarda l’uso dell’IA nel software e l’altra è che le interazioni delle persone comuni sul web possano essere utilizzate per addestrare l’IA. Sei molto preoccupato per queste cose e non vuoi che accadano.

Posso capirlo. Mi aspetto che queste preoccupazioni siano condivise da molti.

Lascia che ti dica, ci sono molte cose nel mondo che mi preoccupano e vorrei che fossero diverse, ma non le sollevo qui perché non sono attuabili da persone qui, o da Discourse come offerta. Se continuassi a sollevare la questione, potrebbe essere fastidioso e potrei ritrovarmi moderato.

Forse senti di non essere ascoltato. Ma penso che ciò che sta realmente accadendo in questo thread sia che gli altri in questo thread credono che le tue preoccupazioni non siano attuabili, non attuabili qui o da loro. Forse si può fare qualcosa, ma non può essere fatto da individui qui. Forse la risposta è un movimento di massa, una campagna o una rivoluzione, ma penso che sia giusto se i moderatori qui ritengono che tali cose siano fuori tema.

agemo · 15 Luglio 2023, 5:52pm

È successo. La cosa che non possiamo cambiare. L’IA è stata scatenata ora ed è l’evento. Non ho mai suggerito che potessimo tornare indietro nel tempo.

I moderatori pensavano di aver capito questo argomento, ma non è così, e continuano a moderare i miei contributi. Sono annoiato dal parlare della moderazione, invece che delle soluzioni, ma continuano a farlo o lo fanno altri utenti, forse non vedono il valore o sono troppo comodi.

La realtà è che, da quando ho cercato di focalizzare questo argomento su soluzioni, nonostante la goffa moderazione, c’è stato qualche risultato.

Potresti pensare di non poter fare nulla, ma guardarlo e riconoscere che:
a) è serio
b) è urgente
c) richiede concentrazione

È un inizio, e che hai il controllo sulla tua reazione, ma non sull’evento che è accaduto ed è ora nel passato e influisce sul presente ogni giorno nel futuro prevedibile.

Non c’è nessuna soluzione offerta se non l’uso grezzo di soluzioni derivate da altri problemi, e quindi si rompe la proposta, poiché l’evento IA sta costringendo le persone ad assumere posizioni che rompono tutto il loro sforzo fino al momento dell’evento.

È molto naturale non voler far parte di qualcosa che è una minaccia diretta e che sfrutterà il tuo contenuto in diretta competizione contro tutti i tuoi sforzi fino a quel momento, per cominciare, ma non si ferma qui.

Riassumerò l’intera questione con una semplice domanda retorica (puoi discutere se sia retorica o meno, ma dovrai riconoscere l’IA).

Perché qualcuno dovrebbe persino considerare di distribuire un’istanza di discourse (o simile) ora?

Ci sono così tante preoccupazioni su questo problema, a volte un argomento (OP) esemplifica l’intero universo delle conseguenze del problema, e questo è certamente uno. Non dovrebbe diventare così ristretto, specialmente quando Discourse non ha una vera soluzione da offrire, allora l’argomento per sua stessa natura nel contesto è aperto o è “mi dispiace poiché non c’è soluzione per questo argomento, l’argomento è ora chiuso”, scegli.

Aprirlo o chiuderlo.

Abbiamo capito?

Questo è il punto. Se c’è un riconoscimento che non c’è volontà di affrontare il problema, allora fallo, altrimenti questo argomento rimane e deve essere molto ampio, questo è il livello di attenuazione della moderazione richiesto su questo argomento, perché è territorio vergine.

Se ci fosse una o due caselle di controllo che lo risolvono nelle impostazioni, ce ne andremmo tutti a casa, ma non ce ne sono davvero, ancora. Potrebbero esserci dei palliativi, ma non sono nel regno del “RISOLTO”, su questo credo che tutti siano d’accordo.

Poiché nessuna soluzione è stata creata in risposta diretta per affrontare le preoccupazioni dell’OP e la questione dell’IA e di come un amministratore debba gestirla, allora i miei punti rimangono validi.

Se ce ne sono, per favore indicali, postali qui o la soluzione in fase di sviluppo o qualsiasi altra cosa. Abbiamo capito?

Lì risiede una responsabilità, di uno sviluppatore, di un utente e della relazione esistente che fa funzionare tutto. Quindi ne discutiamo. Ancora e ancora se necessario.

Quello che vedo è zero riconoscimento di come questo rompa fino agli ultimi due post da quando l’OP è iniziato a maggio e questi li ho celebrati ma sono stato moderato per questo. È uno scherzo. L’IA sta effettivamente rompendo la rete, di nuovo, perché preoccuparsi di impostare una piattaforma discourse o simile? Se non possiamo discuterne in modo serio, genuino e robusto che soddisfi le esigenze dell’argomento, allora ecco la tua risposta.
Il mercato si sta muovendo, tutti i soldi, gli sguardi e la mania stanno cadendo a capofitto nelle tasche di OpenAI & Co. Vedo sviluppatori ovunque qui, come ovunque altro, che si fanno avanti e scelgono l’adozione e l’integrazione completa dell’IA con zero circospezione, ZERO!

Ecco perché un OP del genere rimane angosciante e frustrante. Rompere il tuo discorso è l’unica soluzione sicura. Che non è una soluzione. È virtualmente un game over.

La mia analogia su come l’IA viene recepita dagli sviluppatori, retoricamente: quasi tutti sembrano impegnati a costruire ogni sorta di secchi per raccogliere la lava dall’eruzione del vulcano (l’eruzione essendo l’evento) e la reazione di costruire un secchio per raccogliere la lava, la lava è un dono del dio vulcano, porta calore e luce sì, ma brucia anche le cose molto velocemente, e senza il secchio non puoi controllare la parte che hai, ma il secchio nasconde questo fatto, sembra sicuro, fresco, ordinato, per ora.

No. Non sarebbe corretto. Ho spiegato perché i moderatori hanno sbagliato e quanto sia molto più serio di quanto non considerino, e questo potrebbe essere piuttosto deludente sintomatico della posizione dall’alto verso il basso della relazione tra Discourse e IA… sembra che sia o meh o scrollata di spalle, ma i sentimenti possono essere sbagliati, quindi dimostrami il contrario con fatti concreti.

Alcune persone hanno capito i miei punti, o almeno hanno guardato più attentamente l’OP, hanno dato contributi migliori, per i quali sono grato poiché mi hanno portato lungo alcuni potenziali percorsi verso una soluzione grezza a più punti, ancora in fase di lavorazione, e richiederebbero un certo riconoscimento da parte degli sviluppatori per mappare meglio alle richieste sollevate dall’IA, per renderla migliore come misura di sicurezza fattibile, ancora provvisoria.

È stato un decennio difficile per i forum online, dai cali di traffico alle perdite di entrate. Le implicazioni di questo evento rompono quei grafici di sgomento e per molti operatori potrebbero significare niente di meno che un evento di rovina finale e semplicemente chiuderanno bottega.

Ed_S · 15 Luglio 2023, 6:52pm

Voglio avere discussioni su certi argomenti, quindi gestisco forum dove le persone possono incontrarsi e discutere quegli argomenti. Ho scelto Discourse, ma secondo me qualsiasi altra soluzione sul web aperto avrebbe gli stessi rischi e gli stessi risultati. Voglio che le mie discussioni siano sul web aperto e che appaiano nei risultati di ricerca.

Le persone possono e hanno interazioni su piattaforme attente alla privacy come Telegram e Signal, ma quelle sono offerte di tipo diverso costruite per ragioni diverse. È possibile che la chat di Discourse possa offrire parte di ciò che desideri - a dire il vero, non ho alcun interesse in questo.

Argomento		Risposte	Visualizzazioni
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community ai	103	8291	Febbraio 13, 2025
What is stopping you from trying out Discourse AI? Community ai	35	1778	Agosto 23, 2025
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	36	1405	Novembre 26, 2025
Is there any AI at the core of standard Discourse? Support	15	1551	Maggio 31, 2023
Discourse AI - AI bot Site Management ai , ai-bot , how-to	51	16458	Novembre 13, 2025

Come impedire che i contenuti della community vengano utilizzati per addestrare LLM come ChatGPT?

Argomenti correlati