OpenAI ha utilizzato alcuni set di dati per addestrare i propri modelli. Il set di dati che sembra più probabile includere contenuti di Discourse è una versione filtrata del set di dati Common Crawl. Vedere la sezione 2.2 di questo documento per i dettagli: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl utilizza la stringa user-agent CCBot/2.0 durante il crawling di un sito.
Se desideri mantenere il tuo sito Discourse accessibile al pubblico, ma impedire che i suoi contenuti vengano aggiunti al set di dati Common Crawl in futuro, puoi aggiungere CCBot all’impostazione blocked crawler user agents del tuo sito Discourse. Tieni presente che potrebbe esserci uno svantaggio nel bloccare l’user agent di Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):
Molti set di dati, incluso Common Crawl, potrebbero essere utilizzati da aziende che filtrano e categorizzano URL al fine di creare elenchi di siti Web da targettizzare con pubblicità.
L’uso di Discourse dell’impostazione blocked crawler user agents è qui: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.
Nota che Common Crawl rispetta le regole nel file robots.txt, quindi potrebbe anche essere bloccato aggiungendo la seguente regola al file:
User-agent: CCBot
Disallow: /
I plugin di ChatGPT utilizzano l’user agent ChatGPT-User quando effettuano richieste per conto degli utenti. Questo user agent non viene utilizzato per il crawling del Web per creare set di dati di addestramento: https://platform.openai.com/docs/plugins/bot. Anche questo user agent potrebbe essere bloccato aggiungendolo all’impostazione blocked crawler user agents (o aggiungendo una regola Disallow al file robots.txt).
Come altri hanno notato, il modo più affidabile per impedire che il tuo sito venga utilizzato per addestrare LLM sarebbe impedire l’accesso anonimo al sito abilitando l’impostazione del sito login required. Per rafforzare ulteriormente il sito, si potrebbero adottare misure per aumentare la probabilità che gli utenti sul tuo sito siano umani e non bot. Un possibile approccio sarebbe integrare un servizio come Gitcoin Passport con il sistema di autenticazione del sito. Ritengo che un plugin Gitcoin Passport open source per Discourse verrà presto sviluppato.
Potrebbero esserci altri modi meno tecnici per aumentare la probabilità che gli utenti sul sito siano umani. Ad esempio, il sito potrebbe essere impostato su invite only e si potrebbero adottare misure per assicurarsi di invitare al sito solo utenti che si ritiene siano umani.
Trovo la filosofia alla base di tutto ciò super interessante, ma non mi addentrerò in questo argomento in questo topic.