Come impedire che i contenuti della community vengano utilizzati per addestrare LLM come ChatGPT?

merefield · 15 Maggio 2023, 6:14am

Questo è piuttosto esasperante.

Stavo usando il termine ‘simile’ in modo un po’ approssimativo ma sicuramente valido, solo in relazione a un concetto e solo per supportare un punto specifico. Pensavo fosse ovvio?

Il mio punto nell’affermare la somiglianza era limitato al concetto di estrazione e corrispondenza di ‘caratteristiche’, nient’altro, al fine di distinguere tra apprendimento di concetti e memorizzazione di copie verbatim.

Sono pienamente consapevole che ci sono anche differenze significative.

Sai che la testa umana non assomiglia a un data center, vero?

Stai dicendo che nel cervello umano non avviene alcuna estrazione e corrispondenza di caratteristiche?

Perché è quello che sta facendo:

“ Apprendimento di rilevatori di caratteristiche
Per consentire al sistema percettivo di fare le distinzioni fini richieste per controllare il comportamento, la corteccia sensoriale necessita di un modo efficiente per adattare i pesi sinaptici di più strati di neuroni che rilevano caratteristiche.”

Vedi anche Feature detection (nervous system) - Wikipedia

Questa è una contraddizione. Assolutamente non è copia e incolla ed è questo il punto cruciale del mio discorso.

Si potrebbe persino sostenere che non si tratta di compressione lossy:

Sì, può. E di nuovo, caveat , non nella misura in cui possiamo noi.

ChatGPT sta generalizzando. Questo è ciò che è il pattern matching, ovvero l’estrazione di caratteristiche! È in grado di configurare parole in un ordine sensato che corrisponde alle regole grammaticali. Ha ‘imparato’ un complesso insieme di caratteristiche ed è in grado di costruire frasi che hanno senso grammaticale indipendentemente dall’area tematica. Non memorizza ogni possibile combinazione di parole e le rigurgita esattamente una volta ogni volta, cioè non copia e incolla! Questa è solo una dimostrazione. Le risposte che fornisce dimostrano una crescente sofisticazione.

Ma certo, non è abbastanza sofisticato da “capire” la matematica. Non ancora. (e forse mai con questa tecnica attuale?).

Riconosco pienamente che il livello di sofisticazione non corrisponde al cervello, che è limitato nella sua portata e che l’implementazione fisica di tutto ciò è molto diversa. Ma ciò non invalida il mio punto…

… che era specifico!

La prossima volta mi assicurerò di aggiungere meticolosamente delle precisazioni al mio punto per evitare questo rumore inutile.

JammyDodger · 15 Maggio 2023, 9:56am

Per quanto affascinante e degna di discussione sia la filosofia, penso che l’OP stia cercando specificamente consigli pratici su come mitigare questo problema. Potremmo rimanere in argomento e concentrarci su quelli?

Ed_S · 15 Maggio 2023, 12:56pm

Concordo pienamente! Ma ci siamo allontanati…

Infatti. C’è un rischio reale che i dati di addestramento vengano esposti nell’output dell’LLM, e quando ciò accade può essere un problema di privacy o un problema di copyright. Penso che gli strumenti appropriati siano da un lato la legge sulla protezione dei dati e dall’altro la legge sul copyright, e quindi la licenza.

Penso che non guasterebbe vietare determinati atti nei termini e condizioni d’uso, come lo scraping dei dati, il download su larga scala, l’inclusione nei dati di addestramento per l’apprendimento automatico. Ma per l’applicazione, suggerirei una certa chiarezza nella licenza del contenuto. Per efficacia, una licenza chiara e adatta dovrebbe far parte dell’installazione predefinita, in modo che la maggior parte delle istanze di Discourse abbia lo stesso approccio per proteggersi.

Mi rivolgerei a enti come l’EFF per modelli del tipo giusto di politiche.

Ed_S · 15 Maggio 2023, 4:26pm

Oh, qualcosa di importante da aggiungere. Se si concede in licenza in modo restrittivo il contenuto del proprio forum, nel peggiore dei casi si potrebbe rendere difficile o impossibile migrare il forum su una nuova piattaforma. Non farlo!

(C’è anche un aspetto sociale, anche se potrebbe essere minore. Se i termini del tuo forum stabiliscono che i contributi di una persona diventano proprietà del forum, ciò scoraggerà alcune persone. Ma hai bisogno di qualcosa: non vuoi che gli utenti che se ne vanno possano insistere affinché tutti i loro post vengano rimossi. Questo è un problema diverso rispetto all’argomento qui, ma dimostra che i termini sono importanti.)

Jagster · 15 Maggio 2023, 6:37pm

Nei paesi occidentali, almeno, tale termine è totalmente privo di significato e dimostra solo una cosa: il proprietario della piattaforma non ha assolutamente alcuna conoscenza.

Mevo · 15 Maggio 2023, 10:34pm

Il perché è (molto) interessante, però.
Perché vuoi sapere come farlo? Per farlo, ammettiamolo.
Ma perché? È piuttosto un’estensione della domanda.

Questa è una buona domanda. E gli stessi utenti del forum stanno effettivamente diventando i libri, qui.

Suppongo che un modo, che sembra essere fatto su molti siti, sia quello di analizzare il comportamento dell’utente. Se vengono scansionate “troppe” pagine, soprattutto se viene fatto “troppo velocemente”, allora è probabile che si tratti di scraping. Possono quindi essere aggiunti alcuni parametri, come ad esempio l’uso di un “indirizzo IP di hosting” piuttosto che un indirizzo IP residenziale, il fatto che venga utilizzato un browser “headless”, i cookie non vengono accettati, ecc.

Quindi sì, tutto questo può essere definito e perfezionato in futuro per cercare di bloccare tecnicamente il maggior numero possibile di scraping. Il modo consueto di fare le cose è chiedere un CAPTCHA quando si sospetta un comportamento simile a un bot. Questo permette agli umani di continuare, cosa che non sarebbe possibile se il sistema stesse semplicemente bloccando l’utente.

Ora, tutto questo può sempre essere aggirato se qualcuno vuole ancora farlo. Evitando di essere identificati e apparendo come molti utenti diversi, apparendo più legittimi su molti fronti, ruotando gli IP residenziali, ecc. È quasi uno sport sapere come fare lo scraping di ciò che un sistema è progettato per impedirti di fare. Alcune persone sono molto brave in questo. Ci sono molte risorse disponibili per farlo.

Entità legittime come le persone dietro ChatGPT e simili probabilmente non seguiranno questa strada. Saranno anche più inclini a rispettare i ToS, a presentarsi con uno user agent diretto, ecc. Per scoraggiarli, il fatto “legale” e semplice che dici di vietarlo potrebbe essere sufficiente. Questo non funzionerà con persone a cui importa meno delle legalità e della franchezza.

Una soluzione abbastanza semplice è limitare quanto può essere visualizzato come ospite senza dover accedere. Ma di nuovo, come spesso accade, avrai molta difficoltà a impedire a coloro che lo vogliono davvero fare se sono abbastanza motivati. Questi ultimi potrebbero non essere le persone importanti da prendere di mira in questa questione, però.

pfaffman · 17 Maggio 2023, 7:56am

Penso che sia controllato come qualsiasi altro crawler. Ci sono impostazioni per negare l’accesso tramite user agent. Se il crawler utilizza uno user agent che indica cosa sta facendo, puoi controllarlo.

Non mi è chiaro da dove GPT abbia ottenuto il suo set di dati iniziale né dove otterrà nuovi dati. Dovresti capire quali sono gli user agent, penso.

Jagster · 17 Maggio 2023, 7:59am

Funziona oltre il robots.txt, a livello di firewall?

satonotdead · 17 Maggio 2023, 10:25am

Le discussioni su Internet hanno giorni contati e quel thread e la risposta alla mia genuina domanda (al fine di esplorare il come) sono chiaramente un preludio.

Al momento, non c’è modo di farlo, temo, poiché la ricerca è solo un wrapper web.
https://answers.microsoft.com/en-us/bing/forum/all/opt-out-of-bing-chatgpt-ai/8d76e65b-6c8b-42ab-be4b-39e433045703

User-agent: OpenAI Disallow: /

O

<meta name='robots' content='noindex, nofollow'>

Jagster · 17 Maggio 2023, 10:47am

E seguirà sicuramente quella regola?

anon48433008 · 17 Maggio 2023, 11:05am

Vorrei intervenire e dire che questo è un ottimo argomento, a malapena rientra tra quelli consentiti qui per come la vedo io, ma lo fa

Direi che riassume bene

lol, questo sta entrando nel territorio di Skynet, l’IA farà da sola

Vorrei offrire un esempio sul sì lo farà

Molte religioni si basano sulla Bibbia, e la Bibbia si basa sulle tradizioni degli uomini

Quindi sì, il creato può superare il creatore.

Un giorno, se non ci fermeremo, potremmo benissimo essere i libri di una nuova Bibbia

Potreste essere tutti discepoli :abbracci:

uroboro

È uno strumento o un giocattolo finché non lo è più :alzando le spalle:

Jagster · 17 Maggio 2023, 11:42am

Una battuta divertente, ma nel mondo reale la maggior parte dei bot non segue le regole di robots.txt. È solo un suggerimento, non un qualche tipo di firewall.

Mevo · 17 Maggio 2023, 5:50pm

robots.txt sono istruzioni destinate ai crawler stessi
Si basa sull’assunto che li seguiranno. Non c’è nulla che dica che sarà così “sicuramente”.

Puoi bloccare gli user agent a livello del tuo web server. Molto spesso, NGINX viene utilizzato con Discourse.
Qui, il tuo web server non servirà alcun contenuto a questi user agent. Viene fatto aggiungendo alcune righe al file di configurazione NGINX del tuo sito web. Fai una ricerca sul web per nginx block user agent o una ricerca simile.

Questo è “sicuro”, se il crawler mostra un user agent onesto.

mattdm · 17 Maggio 2023, 5:53pm

Il che non è affatto “sicuro”.

Mevo · 17 Maggio 2023, 8:33pm

Blocca sicuramente gli user agent che vuoi bloccare
(MODIFICA per essere % chiaro: Usando NGINX come presentato sopra e non basandosi solo su robots.txt)

Non è una soluzione sicura per tutto il problema se hai a che fare con attori malintenzionati che non si identificano correttamente. Ma immagino che tu l’abbia capito perfettamente.

Jagster · 17 Maggio 2023, 9:22pm

Questo sta diventando un po’ noioso… ma no. Ci sono un sacco di situazioni in cui nemmeno Google segue il robots.txt.

È ancora un suggerimento e nessuno dovrebbe mai fidarsi di esso.

satonotdead · 19 Maggio 2023, 4:37am

OK, stiamo pensando la stessa cosa.

Vedo due risposte che mi hanno davvero spaventato e non voglio pagare, ma prima o poi potrebbe essere obbligatorio per chi lavora.

(Non ho fornito il numero della mia carta di credito e uso sempre tutto temporaneamente, almeno per rimanere un po’ fuori dai radar)

Ma la gente paga e salta a 4 e 10 volte tanto, poi a 100 volte tanto, 24 dollari al giorno. Lavoro direttamente nei mercati e questo è surreale.

Di solito non uso questo dispositivo per navigare sul web (scelgo captcha per un paio di grandi aziende) perché mi sento più sicuro e privato navigando su Linux. Sospetto che qualcuno possa pensare in modo simile e rispetto se non è il tuo caso.

Anche l’open-source è in qualche modo controllato, potrebbe sembrare un po’ nevrotico o qualcosa del genere, ma preferisco le conversazioni umane nella nostra comunità e stiamo discutendo dei limiti e forse usando metodi per bloccare qualcosa che nessuno sa dove possa fermarsi.

L’allucinazione è stata iniettata, le persone si stanno clonando. Questo potrebbe rompere le informazioni e diffondere molto controllo in un insieme.

Forse siamo in un buon momento per discutere di limiti, valori, privacy. Non censurare, fare lamentele o evitare una buona discussione.

Se siamo d’accordo su questo argomento, dovrei condividere i miei punti e la mia ricerca approfondita sui miei punti non solidi ma reali.

L’IA senza OpenAI (non aperta) potrebbe essere uno strumento possibile e migliore per le comunità?

Per favore, sposta se consideri che questo sia OP, o unisci se vuoi.

Brandon007 · 26 Maggio 2023, 11:16pm

Non so se questo concetto possa essere adattato per un forum, ma eseguo questo codice nel mio file .htaccess sul mio blog.

RewriteCond %{HTTP_USER_AGENT} ^.*(aolbuild|baidu|bingbot|bingpreview|msnbot|duckduckgo|mediapartners-google|googlebot|Googlebot|adsbot-google|teoma|slurp|yandex|Baiduspider|facebookexternalhit|applebot|FeedFetcher-Google).*$ [NC]	
RewriteRule ^/?REDIRECT-THIS-URL?$\t/TO-THIS-URL\t[L,R=301,NC]

L’idea qui è di reindirizzare solo questi user agent che visitano la pagina X. Nel mio caso, reindirizzo gli user agent sopra menzionati che visitano articoli di attualità, continuando a rendere disponibile il mio contenuto biblico per tutto il resto. L’ho fatto per scopi SEO, il che ha fatto la differenza, forse c’è un modo per usare qualcosa di simile per bloccare un bot AI?

Il problema con il mio codice è che per ogni URL è necessaria un’altra riga di codice.

Mevo · 27 Maggio 2023, 10:42am

Certo. Questa è una soluzione in cui il tuo web server gestisce gli user agent specifici in un certo modo. È praticamente la stessa cosa di quella che ho descritto sopra. Funziona finché il bot si identifica con un user agent corretto.

stance455 · 10 Giugno 2023, 12:11am

Per riagganciarmi a questo argomento, qualcuno sa se l’user agent di ChatGPT sta ottenendo la versione Crawler? Ne dubito… forse dovrebbe essere aggiunto all’elenco dei “crawler”.

Argomento		Risposte	Visualizzazioni
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community ai	103	8291	Febbraio 13, 2025
What is stopping you from trying out Discourse AI? Community ai	35	1778	Agosto 23, 2025
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	36	1405	Novembre 26, 2025
Is there any AI at the core of standard Discourse? Support	15	1551	Maggio 31, 2023
Discourse AI - AI bot Site Management ai , ai-bot , how-to	51	16458	Novembre 13, 2025

Come impedire che i contenuti della community vengano utilizzati per addestrare LLM come ChatGPT?

Argomenti correlati