Come impedire che i contenuti della community vengano utilizzati per addestrare LLM come ChatGPT?

simon · 7 Luglio 2023, 5:31pm

OpenAI ha utilizzato alcuni set di dati per addestrare i propri modelli. Il set di dati che sembra più probabile includere contenuti di Discourse è una versione filtrata del set di dati Common Crawl. Vedere la sezione 2.2 di questo documento per i dettagli: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl utilizza la stringa user-agent CCBot/2.0 durante il crawling di un sito.

Se desideri mantenere il tuo sito Discourse accessibile al pubblico, ma impedire che i suoi contenuti vengano aggiunti al set di dati Common Crawl in futuro, puoi aggiungere CCBot all’impostazione blocked crawler user agents del tuo sito Discourse. Tieni presente che potrebbe esserci uno svantaggio nel bloccare l’user agent di Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):

Molti set di dati, incluso Common Crawl, potrebbero essere utilizzati da aziende che filtrano e categorizzano URL al fine di creare elenchi di siti Web da targettizzare con pubblicità.

L’uso di Discourse dell’impostazione blocked crawler user agents è qui: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Nota che Common Crawl rispetta le regole nel file robots.txt, quindi potrebbe anche essere bloccato aggiungendo la seguente regola al file:

User-agent: CCBot
Disallow: /

I plugin di ChatGPT utilizzano l’user agent ChatGPT-User quando effettuano richieste per conto degli utenti. Questo user agent non viene utilizzato per il crawling del Web per creare set di dati di addestramento: https://platform.openai.com/docs/plugins/bot. Anche questo user agent potrebbe essere bloccato aggiungendolo all’impostazione blocked crawler user agents (o aggiungendo una regola Disallow al file robots.txt).

Come altri hanno notato, il modo più affidabile per impedire che il tuo sito venga utilizzato per addestrare LLM sarebbe impedire l’accesso anonimo al sito abilitando l’impostazione del sito login required. Per rafforzare ulteriormente il sito, si potrebbero adottare misure per aumentare la probabilità che gli utenti sul tuo sito siano umani e non bot. Un possibile approccio sarebbe integrare un servizio come Gitcoin Passport con il sistema di autenticazione del sito. Ritengo che un plugin Gitcoin Passport open source per Discourse verrà presto sviluppato.

Potrebbero esserci altri modi meno tecnici per aumentare la probabilità che gli utenti sul sito siano umani. Ad esempio, il sito potrebbe essere impostato su invite only e si potrebbero adottare misure per assicurarsi di invitare al sito solo utenti che si ritiene siano umani.

Trovo la filosofia alla base di tutto ciò super interessante, ma non mi addentrerò in questo argomento in questo topic.

Argomento		Risposte	Visualizzazioni
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	103	8329	Febbraio 13, 2025
What is stopping you from trying out Discourse AI? Community Building ai	35	1805	Agosto 23, 2025
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	36	1444	Novembre 26, 2025
Is there any AI at the core of standard Discourse? Support	15	1569	Maggio 31, 2023
Best practices dealing with Spam users and GPT reply posts Community Building	9	929	Luglio 31, 2023

Come impedire che i contenuti della community vengano utilizzati per addestrare LLM come ChatGPT?

Argomenti correlati