Come impedire che i contenuti della community vengano utilizzati per addestrare LLM come ChatGPT?

Sì, questo è un punto retorico molto ampio e penso che tu abbia perso l’implicazione.

Mi sbilancio e dico che il tuo processo logico è stato condotto in un periodo precedente all’attuale iterazione di AI/ChatGPT, e quello era il vecchio normale spazio di parata.

Le persone nello stesso spazio oggi hanno questo nuovo paradigma che cattura l’attenzione e che cambia le cose (l’IA) che sembra promettere un fattore x apparentemente infinito in termini di potenziale e conseguenze, in egual misura.

Tutte le attività e le ipotesi precedenti che hanno informato le decisioni passate diventano nulle e non valide se l’IA ha avuto accesso a tutto, e ci sono abbastanza prove aneddotiche trovate online per suggerire che il data scrapping per alimentare l’IA è in corso da 3, forse 5 o più anni, nel caso di DeepMind forse già dal 2014, quando Google l’ha acquistata (forse un’analisi forense dei campioni di log potrebbe dimostrarlo, o forse è stato occultato per evitarlo). Se si tiene conto di ciò come relativamente vero, si può vedere che il problema è netto nei tempi di avvio tecnici.

Tutto il contenuto potrebbe essere stato scartato ed è troppo tardi, ma ho tenuto conto di ciò nelle mie preoccupazioni e rappresentazioni, e lo sto solo notando qui, perché, come ho affermato, non c’è soluzione con una macchina del tempo qui, solo il potere della circospezione per informare le soluzioni presenti e future.

Mi dispiace, non capisco nulla di tutto ciò.

L’implicazione della domanda era che ora c’è una nuova scelta convincente in città che è vista come una soluzione al di sopra di tutte le altre per molte esigenze, ovvero l’IA (tecnologia basata su ChatGPT).

Stai dicendo che nessuno sceglierebbe di creare un forum perché gli LLM offrono alle persone tutto ciò che desiderano dai forum? (Questo non è l’argomento di questo thread, tra l’altro.)

(Se vuoi che le persone facciano qualcosa per te, penso che tu debba essere chiaro su quale pensi sia il problema e cosa pensi che possano fare per te. Vedo che ci tieni molto, ma non so cosa vuoi. Come chiunque altro, ho tempo ed energia limitati, quindi non mi impegnerò molto a capire i tuoi pensieri.)

Modifica per aggiungere:
[details=“il riassunto attuale dell’“AI” di questo thread, per posterità”]

Una discussione su un forum su come impedire che i contenuti della community vengano utilizzati per addestrare modelli linguistici come ChatGPT si concentra sulla privatizzazione dei contenuti richiedendo l’accesso, bloccando gli scraper tramite robots.txt o l’impostazione di Discourse per gli user agent dei crawler bloccati, o rimuovendo il sito da internet aperto del tutto. Mentre alcuni non sono d’accordo con il divieto di utilizzo dei dati pubblici e credono che sia una parte inevitabile del progresso, altri sostengono che i creatori di contenuti dovrebbero avere un maggiore controllo su come il loro lavoro viene utilizzato. La discussione esplora le questioni filosofiche relative alla proprietà delle informazioni e della creatività, oltre a fornire suggerimenti pratici per mitigare l’uso dei dati da parte dei sistemi di intelligenza artificiale.
[/details]

4 Mi Piace

Improvvisamente c’è un nuovo motivo per non scegliere i vecchi modi a cui la maggior parte delle persone è difficile resistere.


Non sono l’OP ma empatizzo ancora di più con l’OP ora.

  1. Prendere sul serio l’OP, cosa che nessuno stava facendo,

e

  1. Il motivo è che, con tutti gli eventi di questo tipo, hanno ripercussioni profondamente positive e negative, e non credo o non rilevo alcun serio riconoscimento degli svantaggi, e un pregiudizio verso i vantaggi percepiti, e quindi non c’è attività per valutare e mitigare, cioè supportare coloro che sono colpiti, ma a livello di piattaforma.

Ancora una volta, non sono l’OP, ma il problema dell’OP è il problema di ogni discorso (che è rivolto al pubblico). È anche una minaccia esistenziale sistemica per la rete, è agnostico rispetto alla piattaforma, o

non è altro che “nuovi fantastici giocattoli” con cui giocare pragmaticamente.

Quest’ultima non è seria nel contesto. È volutamente cieca. Personalmente la trovo irresponsabile. Il che rende il paradigma dell’IA ancora più pericoloso.

I singoli argomenti non risolveranno questo problema, è leadership. Ho iniziato con @ sam e @ codinghorror ed è stato allora che è iniziato tutto il cataclisma della moderazione, fatto una volta non abusato, ma sapete, altre persone pensano meglio, e sanno meglio, aspettate che l’IA si prenda davvero i suoi agganci. :faccina che si scioglie:

In conclusione: questo problema deve essere preso molto sul serio.

Quindi potrebbe aver bisogno di una sua categoria. È così enorme.

Finora, a parte la soluzione che non è una soluzione ma una rottura, se la strategia è chiudere la porta con - login_required (impostazione), allora in quello scenario, per mitigare gli effetti negativi del traffico, se ci si basa sul traffico di ricerca, è avere qualcosa da vedere ma non tutto.

Frontend WP / Sito Discourse login_required
(più lavoro, più costi di hosting, supporto ecc.)

Cose che aiuterebbero ma non sono state costruite pensando esattamente a questo problema:

Pagine Pubblicate se sviluppate con una pagina di elenco dedicata, alcune opzioni da configurare, potrebbero fungere da pagina di destinazione di collegamento in cui gli utenti possono vedere alcuni contenuti pubblici con una richiesta di registrazione per leggere di più

– consentire l’elenco delle pagine pubblicate sulla propria pagina /pub (rendere la home page)
– consentire le pagine pubblicate elencate sulla pagina login_require
– consentire categorie personalizzate o ultime sulla pagina login_required

Ho trovato Pagine Pubblicate solo un paio di giorni fa come funzionalità mentre cercavo una soluzione a questo problema, e ricordo che anche prima dell’enigma dell’IA, utenti precedenti hanno richiesto una funzionalità di elenco simile per le pagine pubblicate.

Un trattamento più configurabile e mirato delle pagine pubblicate è a mio parere più preferibile rispetto a un componente aggiuntivo per l’intero frontend WP, se si necessita di risolvere un punto di connessione rivolto al pubblico.

Elenca solo il primo post dell’argomento

Mostra solo il primo post di qualsiasi argomento e richiedi il login per leggere i commenti. Ho visto suggerimenti simili almeno una volta e dato il pollice in giù, ma in questo contesto richiede una rivalutazione.

Considera anche questi suggerimenti come un elenco incompleto, semplicemente potenziali cerotti per parte del problema, non per tutto.


Nel frattempo tornerò a terrorizzare questo argomento con un sacco di sensazioni :slight_smile: How are we all feeling about ChatGPT and other LLMs and how they'll impact forums?

1 Mi Piace

Dalla tua ultima risposta, vedo che stiamo giungendo più o meno alla stessa conclusione di affrontare il problema avendo un mix di contenuti pubblici e privati. Ho scritto il post qui sotto prima di leggere la tua risposta. Lo pubblicherò comunque per cercare di sostenere la tesi.

Prendo sul serio l’OP, sia perché pone una domanda legittima, sia perché potrei condividere una preoccupazione con il suo autore su come gli LLM influenzeranno Internet. Se ho capito bene le tue preoccupazioni, penso di essere d’accordo con te sul fatto che stiamo assistendo a un cambiamento fondamentale nel modo in cui funziona Internet: invece che le persone visitino direttamente i siti, gli LLM diventeranno l’interfaccia di riferimento per interagire con la parte pubblica di Internet. Ci sono tutta una serie di implicazioni che probabilmente non possono essere affrontate utilmente qui.

Ciò che può essere affrontato qui è la questione su come impedire che i contenuti di Discourse vengano utilizzati per addestrare gli LLM. Discourse offre alcuni approcci possibili.

Il primo approccio è debole: mantenere il sito pubblico e cercare di bloccare qualsiasi user agent utilizzato per raschiare i dati con l’impostazione del sito blocked crawler user agents. Oltre a ciò, potresti impegnarti in sfide legali contro le società tecnologiche che raschiano i dati.

L’approccio più forte è rendere tutto il tuo sito, o parti di esso, privato. Questo può essere fatto con l’impostazione del sito login required o con le impostazioni di sicurezza delle categorie.

L’obiezione principale che sto vedendo all’approccio sopra menzionato è che le persone vogliono che i loro siti siano scoperti dai motori di ricerca. Sospetto che ci siano modi per affrontare questo problema. Il più semplice sarebbe avere un blog pubblico ottimizzato per la SEO, associato a un forum privato di Discourse. Una soluzione più complessa sarebbe che Discourse fornisca funzionalità che consentano a parte dell’OP di un argomento di essere pubblica, mentre il grosso dell’argomento potrebbe essere accessibile solo ai membri di un gruppo di Discourse. Questo sarebbe simile a come servizi come Substack gestiscono contenuti disponibili solo agli abbonati paganti: mostrano alcuni contenuti accessibili agli utenti anonimi e ai crawler, quindi mostrano una CTA di iscrizione:

Quindi, immagino che, insieme alla mia preoccupazione su come gli LLM influenzeranno Internet, stia vedendo un’opportunità per esaminare nuovi modi per finanziare i creatori di contenuti.

7 Mi Piace

Dove si trova questa impostazione?

2 Mi Piace

La tua domanda è “perché qualcuno dovrebbe produrre qualcosa che possa essere messo su internet pubblico?”

Quando fai la domanda su internet pubblico, nessuno che condivide la tua opinione può rispondere alla tua domanda.

6 Mi Piace

Questo argomento è estenuante, il riassunto basato sull’IA copre l’argomento benissimo, scorri verso l’alto e cliccaci sopra

Chiusura per i prossimi 3 mesi

12 Mi Piace

Questo argomento è stato aperto automaticamente dopo 90 giorni.