Como impedir que conteúdo da comunidade seja usado para treinar LLMs como ChatGPT?

simon · Julho 7, 2023, 5:31pm

A OpenAI utilizou alguns conjuntos de dados para treinar seus modelos. O conjunto de dados que parece mais provável de incluir conteúdo do Discourse é uma versão filtrada do conjunto de dados Common Crawl. Veja a seção 2.2 deste documento para detalhes: https://arxiv.org/pdf/2005.14165.pdf. O Common Crawl usa a string do user-agent CCBot/2.0 ao rastrear um site.

Se você deseja manter seu site Discourse acessível ao público, mas impedir que seu conteúdo seja adicionado ao conjunto de dados Common Crawl no futuro, você pode adicionar CCBot à configuração de user agents de rastreadores bloqueados do seu site Discourse. Observe que pode haver uma desvantagem em bloquear o user agent do Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):

Muitos conjuntos de dados, incluindo o Common Crawl, podem ser usados por empresas que filtram e categorizam URLs para criar listas de sites para direcionar com publicidade.

O uso do Discourse da configuração user agents de rastreadores bloqueados está aqui: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Observe que o Common Crawl respeita as regras no arquivo robots.txt, portanto, também pode ser bloqueado adicionando a seguinte regra ao arquivo:

User-agent: CCBot
Disallow: /

Os plugins do ChatGPT usam o user agent ChatGPT-User ao fazer solicitações em nome dos usuários. Este user agent não é usado para rastrear a web para criar conjuntos de dados de treinamento: https://platform.openai.com/docs/plugins/bot. Este user agent também pode ser bloqueado adicionando-o à configuração user agents de rastreadores bloqueados (ou adicionando uma regra Disallow ao arquivo robots.txt).

Como outros observaram, a maneira mais confiável de impedir que seu site seja usado para treinar LLMs seria impedir o acesso anônimo ao site, habilitando a configuração do site login necessário. Para proteger ainda mais o site, medidas podem ser tomadas para aumentar a probabilidade de que os usuários em seu site sejam humanos e não bots. Uma abordagem possível seria integrar um serviço como o Gitcoin Passport ao sistema de autenticação do site. Acredito que um plugin Gitcoin Passport de código aberto para Discourse será desenvolvido em breve.

Pode haver outras maneiras menos técnicas de aumentar a probabilidade de que os usuários do site sejam humanos. Por exemplo, o site pode ser configurado como somente convite e medidas podem ser tomadas para garantir que você esteja convidando apenas usuários que você tenha motivos para acreditar que sejam humanos para o site.

Acho a filosofia por trás de tudo isso super interessante, mas não vou me aprofundar nisso neste tópico.

Tópico		Respostas	Visualizações
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community ai	103	8096	13 de Fevereiro de 2025
What is stopping you from trying out Discourse AI? Community ai	35	1681	23 de Agosto de 2025
Best practices dealing with Spam users and GPT reply posts Community	9	903	31 de Julho de 2023
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	37	928	20 de Novembro de 2025
Is there any AI at the core of standard Discourse? Support	15	1474	31 de Maio de 2023

Como impedir que conteúdo da comunidade seja usado para treinar LLMs como ChatGPT?

Tópicos relacionados