Le soluzioni GPT e altri LLM necessitano di set di dati di addestramento. Come possiamo impedire che i contenuti delle nostre community vengano utilizzati per addestrare tali modelli? Dovremmo aggiungere qualcosa nelle nostre condizioni d’uso?
Ci ho pensato dopo aver letto che Reddit apporterà alcune modifiche per evitare che i modelli vengano addestrati sui propri dati senza essere pagati:
Avrà davvero importanza quando ci saranno 10 provider diversi tra cui scegliere al prezzo di costo?
Imparare dalle opere collettive dell’umanità sembrerebbe abbastanza giusto: è quello che gli esseri umani fanno continuamente, quindi perché non le macchine?
Reddit fa pagare gli esseri umani per le cose che imparano su Reddit?
Questo tipo di cose sa di speculazione da parte di Reddit.
E non parliamo del fatto che tutti i contenuti su Reddit sono stati forniti gratuitamente dagli utenti, quindi perché Reddit non dovrebbe pagare i propri utenti?
Sembra più una questione di “se posso leggere un libro che prendo in prestito dalla biblioteca, perché non posso copiarlo e venderne copie ad altre persone?” piuttosto che “se posso imparare da un libro, non può farlo anche un computer?”. Forse sono vecchio, ma non sono pronto a pensare che un gruppo di computer che eseguono un programma sia la stessa cosa di una persona.
Ma penso anche che ci siano già delle misure in atto per impedire il web scraping su larga scala. O forse i siti di indicizzazione per i motori di ricerca sono scraping.
Beh, non è ampiamente accettato nel mondo umano che qualcuno entri nelle case e nei luoghi di lavoro altrui, copi tutto e poi ricrei tutto a proprio vantaggio per fare soldi.
Questa non è una domanda facile. C’è una questione morale, etica e finanziaria davvero grande che può essere riassunta in due: i diritti d’autore e i brevetti sono proprietà virtuale accettabile o no.
Per me questo è un problema abbastanza facile, però. Forse perché sono un pesce così piccolo e fondamentalmente semplice. Subito quando devo pagare per l’attività di qualcuno che vuole rivendermi qualcosa, sono contrario. Ecco perché odio così profondamente tutto il traffico dei bot.
Di nuovo: la questione dell’IA è molto più grande di ChatGPT. E lo so e lo capisco. Ma perché dovrei o dovrei pagare quando è insegnato ai modelli linguistici?
Fatto divertente ampiamente noto di ChatGPT
Nel mondo finlandese sono un grande influencer quando l’argomento è l’alimentazione dei cani. Lo faccio da oltre 30 anni e ho creato molti testi pubblici. In realtà, il mio sito è il sito informativo più grande (e mi piacerebbe dire il più importante ) in finlandese.
Se chiedo qualcosa sulla nutrizione canina in inglese, ChatGPT fornisce vecchie e ampiamente inaccurate teorie sul barf. Se faccio la stessa domanda in finlandese, otterrò i miei testi.
Questo è successo perché il modo di apprendere di ChatGPT segue il pensiero un milione di mosche non possono sbagliarsi.
Nessuno fa pagare nessuno per leggere un libro sul comunismo in una biblioteca e poi andare in un talk show politico sostenendo il comunismo.
I bot stanno imparando schemi in modo simile a come facciamo noi.
Inoltre, in tribunale, senza aver supervisionato il processo di apprendimento, come faresti a sapere se lo ha fatto o meno?
Nella legge sul copyright è sicuramente semplice dimostrare se qualcuno ha copiato il tuo lavoro, ma qui non si tratta né di copiare né è facile dimostrare di aver avuto accesso.
In ogni caso, c’è qualcosa di veramente nuovo su Reddit?!?
Mi dispiace, ma non credo. L’IA ricorda schemi e crea alcune relazioni, ma non può intuire, sentire o creare veramente.
L’IA non pensa in modo appropriato come gli umani e non registra il tempo, i sentimenti e la vita.
A proposito, sono d’accordo con il resto del tuo punto di vista. La collaborazione più la ricerca e la condivisione di casi d’uso fanno bene a tutti (almeno per non essere spostati, il che sembra inevitabile per le persone che non imparano a sentire, intuire o creare).
La situazione generale mi ricorda la Rivoluzione Industriale e alcuni film distopici
Tornerò a dissentire, perché ti stai perdendo il mio punto.
Il mio uso del termine “simile” era giustificato perché stanno sviluppando modi per identificare le cose per caratteristiche proprio come gli esseri umani, invece di copiare testualmente i dati e memorizzarli: è questa distinzione che sto sottolineando ed è una distinzione critica, sia logicamente che potenzialmente legalmente.
Sentimenti ed emozioni sono irrilevanti per la discussione qui: l’argomento è l’archiviazione e la riproduzione della conoscenza. E su quell’argomento, l’IA sta quasi certamente utilizzando tecniche simili al cervello umano per addestrarsi e poi utilizzare quel modello.
Ed è così che le cose sono state sviluppate in questo campo: hanno creato modelli che erano un’approssimazione di come le reti neurali sembravano funzionare nei nostri cervelli e poi le hanno ampliate. E guarda un po’: ha iniziato a comportarsi molto come un essere umano, più di quanto abbia mai fatto qualsiasi modello linguistico naturale. Questo dimostra ampiamente il mio punto.
Stai sostenendo che una Rolls Royce sia un’auto migliore, ma è comunque un’auto.
L’IA ha raggiunto il punto in cui si comporta in modo molto simile a un essere umano. Sta emergendo un comportamento molto sofisticato, ma non è un caso, perché gli scienziati hanno cercato di copiare le tecniche di apprendimento umano.
Naturalmente ci sono altri livelli da considerare e le emozioni sono solo uno (un altro enorme è il concetto di ‘ego’ e l’importanza di informazioni sensoriali simili a quelle umane, persino vestibolari, che si ritiene siano fondamentali per la percezione dell’‘ego’), ma questo non altera l’argomentazione qui, secondo me.
No, ho solo detto che l’IA non può imparare come gli umani (agire come se non imparasse). Non è quasi possibile e penso che sia importante tenerlo a mente.
Allora sono d’accordo che i dati pubblici sono pubblici. E per me va benissimo avere differenze, questo ci rende umani (e non IA)
Questo è semplicemente sbagliato, a mio parere.
Le conquiste che abbiamo fatto in questo campo sono quasi certamente perché l’IA sta imparando (di più) come gli umani.
Non ho mai affermato che non ci fosse molto (!) di più?
Sto solo facendo una distinzione centrale:
Ovvero che l’IA sta imparando dalle caratteristiche (come facciamo noi) e non copiando informazioni esatte. Sta imparando a generalizzare e non a fare affidamento su dettagli completi per fare distinzioni.
Per questo motivo non deve memorizzare opere complete in alta definizione, parola per parola.
Senza dubbio ci sono molti altri metodi di apprendimento che non sono ancora stati incorporati, ma questa tecnica è stata molto utilizzata.
L’argomento non è discutere se sia giustificato o meno impedire l’uso dei nostri dati, ma come farlo?
Esistono modi efficaci per prevenire lo scraping in generale? Ad esempio, richiedere l’accesso tramite login per accedere alla maggior parte dei contenuti?
Penso che moralmente e tecnicamente sia giustificato.
Trovo anzi aberrante che canzoni jazz scritte negli anni '30 siano soggette a copyright, quando si potrebbe sostenere che molte caratteristiche della musica sono fenomeni intrinsecamente umani che nessuno dovrebbe possedere: prendi l’esempio del “cerchio delle quinte” - questa è una struttura implicita nella musica che aiuta a formare molte canzoni, da semplici canzoni rock a 3 accordi degli anni '50 a brani jazz altamente sofisticati.
E come ho suggerito, non stiamo parlando di archiviare e regurgitare materiale protetto da copyright parola per parola.
Impedire all’IA di utilizzare caratteristiche della musica come il cerchio delle quinte solo perché la maggior parte della musica è soggetta a copyright è ridicolo!
Si potrebbe sostenere che gli autori di quella musica hanno beneficiato enormemente della condizione umana e hanno già guadagnato profumatamente. Mi confonde il fatto che un pronipote debba guadagnare denaro dall’opera del proprio antenato, che a sua volta si basa sulla conoscenza generale.
Temo di non essere un esperto in materia, ma non credo che i crawler possano accedere ai contenuti se un sito non è pubblicamente visibile, quindi se questa è un’opzione per te, potrebbe essere il modo più efficace.
Non è assolutamente così. Questi strumenti sono in alcuni modi ispirati a concetti neurali biologici, ma nell’implementazione effettiva non sono funzionalmente simili. Questa potrebbe sembrare una pignoleria, ma penso che sia molto importante, perché l’argomento sembra filosoficamente convincente. Le analogie possono essere molto pericolose in questo modo.
Ecco alcuni modi specifici in cui le reti neurali computazionali non stanno “imparando schemi in modo simile a come facciamo noi”.
i nostri neuroni sono connessi localmente e multidimensionalmente, con alcuni cluster densi e altri meno connessi; le reti neurali sono tipicamente organizzate in strati, con ogni strato completamente interconnesso o uno strato “convoluzionale” intenzionalmente progettato.
i cervelli biologici operano in modo asincrono, con i neuroni che si attivano a velocità diverse e con la frequenza stessa che trasporta informazioni. Le reti neurali sono fondamentalmente operazioni massicciamente parallele. (Questo è il motivo per cui sono così adatte al calcolo GPGPU.)
i neuroni sono responsabili sia del calcolo che della memoria. Non c’è archiviazione o recupero separato, o esecuzione di funzioni. Questo da solo rende un tipo di sistema di elaborazione molto diverso.
stranamente: la comunicazione cerebrale è più binaria di ciò che stiamo facendo con i computer: un neurone si attiva o non si attiva, mentre un “neurone artificiale” di solito riceve e produce intervalli di valori continui (rappresentati come virgola mobile). (Anche questo non è un’elaborazione che funziona in modo simile a come comprendiamo il funzionamento del cervello.)
l’apprendimento funziona diversamente: nell’apprendimento umano, le connessioni cambiano effettivamente. (Non lo capiamo molto bene.) In una rete neurale, l’architettura viene scelta e fissata, e l’“apprendimento” consiste nell’aggiustare i pesi. (Ironicamente, nemmeno questo lo capiamo molto bene, davvero.)
Nello specifico, certamente non sta imparando a generalizzare. È, invece, creata in modo da avere la capacità di produrre risposte che sembrano generalizzare.
Ma in realtà non può generalizzare affatto.
Un esercizio interessante con ChatGPT è chiedergli della moltiplicazione. Affermerà seriamente di avere una comprensione dell’algoritmo per la moltiplicazione in colonna. Infatti, se gli chiedi di moltiplicare numeri a due o tre cifre, probabilmente (ma non con assoluta certezza!) darà la risposta corretta. Ma poi prova con numeri a cinque o sei cifre. Darà risposte che sembrano avere il numero corretto di cifre, ma che in realtà non saranno corrette.
Se gli chiedi di spiegare, dirà di aver seguito un algoritmo, e se gli chiedi di mostrare il suo lavoro, lo farà, e sarà un nonsenso che è modellato sulla risposta corretta. Probabilmente troverai anche, nei passaggi, una moltiplicazione di singole cifre completamente errata. Non “sa” in realtà che questi passaggi sono la stessa cosa della moltiplicazione di singole cifre che ha appena fatto con sicurezza pochi minuti prima, perché in realtà non ha generalizzato nulla.
E la matematica non ha nulla di speciale qui. È solo un modo semplice per tirare un po’ indietro il sipario. La stessa cosa di base accade quando si cerca di fargli scrivere una poesia.
Non fraintendermi! Penso che possiamo fare cose straordinarie con l’IA anche com’è oggi. Ma per favore, non basiamo le nostre politiche su analogie.