Como impedir que conteúdo da comunidade seja usado para treinar LLMs como ChatGPT?

A OpenAI utilizou alguns conjuntos de dados para treinar seus modelos. O conjunto de dados que parece mais provável de incluir conteúdo do Discourse é uma versão filtrada do conjunto de dados Common Crawl. Veja a seção 2.2 deste documento para detalhes: https://arxiv.org/pdf/2005.14165.pdf. O Common Crawl usa a string do user-agent CCBot/2.0 ao rastrear um site.

Se você deseja manter seu site Discourse acessível ao público, mas impedir que seu conteúdo seja adicionado ao conjunto de dados Common Crawl no futuro, você pode adicionar CCBot à configuração de user agents de rastreadores bloqueados do seu site Discourse. Observe que pode haver uma desvantagem em bloquear o user agent do Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):

Muitos conjuntos de dados, incluindo o Common Crawl, podem ser usados por empresas que filtram e categorizam URLs para criar listas de sites para direcionar com publicidade.

O uso do Discourse da configuração user agents de rastreadores bloqueados está aqui: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Observe que o Common Crawl respeita as regras no arquivo robots.txt, portanto, também pode ser bloqueado adicionando a seguinte regra ao arquivo:

User-agent: CCBot
Disallow: /

Os plugins do ChatGPT usam o user agent ChatGPT-User ao fazer solicitações em nome dos usuários. Este user agent não é usado para rastrear a web para criar conjuntos de dados de treinamento: https://platform.openai.com/docs/plugins/bot. Este user agent também pode ser bloqueado adicionando-o à configuração user agents de rastreadores bloqueados (ou adicionando uma regra Disallow ao arquivo robots.txt).

Como outros observaram, a maneira mais confiável de impedir que seu site seja usado para treinar LLMs seria impedir o acesso anônimo ao site, habilitando a configuração do site login necessário. Para proteger ainda mais o site, medidas podem ser tomadas para aumentar a probabilidade de que os usuários em seu site sejam humanos e não bots. Uma abordagem possível seria integrar um serviço como o Gitcoin Passport ao sistema de autenticação do site. Acredito que um plugin Gitcoin Passport de código aberto para Discourse será desenvolvido em breve.

Pode haver outras maneiras menos técnicas de aumentar a probabilidade de que os usuários do site sejam humanos. Por exemplo, o site pode ser configurado como somente convite e medidas podem ser tomadas para garantir que você esteja convidando apenas usuários que você tenha motivos para acreditar que sejam humanos para o site.

Acho a filosofia por trás de tudo isso super interessante, mas não vou me aprofundar nisso neste tópico.

15 curtidas