Como impedir que conteúdo da comunidade seja usado para treinar LLMs como ChatGPT?

merefield · Maio 15, 2023, 6:14am

Isso é um tanto exasperante.

Eu estava usando o termo ‘semelhante’ de forma um tanto frouxa, mas definitivamente válida, apenas em relação a um conceito e apenas para apoiar um ponto específico. Achei que isso era óbvio?

Meu ponto ao afirmar a semelhança estava limitado ao conceito de extração e correspondência de ‘recursos’, nada mais, a fim de traçar uma distinção entre aprender conceitos e memorizar cópias literais.

Estou totalmente ciente de que também existem diferenças significativas.

Você sabe que uma cabeça humana não se parece com um data center, certo?

Você está dizendo que não há extração e correspondência de recursos ocorrendo no cérebro humano?

Porque é isso que ele está fazendo:

“Aprendendo detectores de recursos
Para permitir que o sistema perceptual faça as distinções finas que são necessárias para controlar o comportamento, o córtex sensorial precisa de uma maneira eficiente de adaptar os pesos sinápticos de múltiplas camadas de neurônios detectores de recursos.”

Veja também Feature detection (nervous system) - Wikipedia

Isso é uma contradição. Absolutamente não é copiar e colar e essa é a essência do meu ponto.

É argumentavelmente nem mesmo compressão com perdas:

Sim, consegue. E novamente, ressalva , não na extensão que nós conseguimos.

O ChatGPT está generalizando. É isso que a correspondência de padrões, também conhecida como extração de recursos, faz! Ele é capaz de configurar palavras em uma ordem sensata que corresponde às regras gramaticais. Ele ‘aprendeu’ um conjunto complexo de recursos e é capaz de construir frases que fazem sentido gramaticalmente, independentemente da área temática. Ele não está armazenando todas as combinações possíveis de palavras e regurgitando exatamente uma correspondência a cada vez, ou seja, não é copiar e colar! Isso é apenas uma demonstração. As respostas que ele dá demonstram sofisticação emergente.

Mas, claro, não é sofisticado o suficiente para “entender” matemática. Ainda não. (e talvez nunca com esta técnica atual?).

Reconheço plenamente que o nível de sofisticação não corresponde ao do cérebro, que é limitado em escopo e que a implementação física de tudo isso é muito diferente. Mas isso não invalida meu ponto…

… que era específico!

Da próxima vez, terei certeza de ressalvar meticulosamente meu ponto para evitar esse ruído desnecessário.

JammyDodger · Maio 15, 2023, 9:56am

Por mais fascinante e digna de discussão que seja a filosofia, acho que o OP está especificamente procurando dicas práticas sobre como mitigar isso. Poderíamos manter o tópico e nos concentrar nisso?

Ed_S · Maio 15, 2023, 12:56pm

Concordo plenamente! Mas nos desviamos…

De fato. Existe um risco real de dados de treinamento serem expostos na saída do LLM, e quando isso acontece, pode ser um problema de privacidade ou um problema de direitos autorais. Acho que as ferramentas apropriadas são, por um lado, a lei de proteção de dados e, por outro, a lei de direitos autorais e, portanto, licenciamento.

Acho que não faria mal incluir nos termos e condições de uso a proibição de certos atos, como scraping de dados, download em larga escala, inclusão em dados de treinamento para aprendizado de máquina. Mas para a aplicação, eu sugeriria alguma clareza no licenciamento do conteúdo. Para eficácia, uma licença clara adequada deveria fazer parte da instalação padrão, para que a maioria das instâncias do Discourse tenha a mesma abordagem para se proteger.

Eu procuraria entidades como a EFF para modelos do tipo certo de políticas.

Ed_S · Maio 15, 2023, 4:26pm

Ah, algo importante a acrescentar. Se você licenciar restritivamente o conteúdo do seu fórum, no pior dos casos, poderá tornar difícil ou impossível migrar seu fórum para uma nova plataforma. Não faça isso!

(Há um aspecto social também, embora possa ser menor. Se os termos do seu fórum disserem que as contribuições de uma pessoa se tornam propriedade do fórum, isso afastará algumas pessoas. Mas você precisa de algo: você não quer que usuários que saem possam insistir que todas as suas postagens sejam removidas. Este é um problema diferente do tópico aqui, mas mostra que os termos são importantes.)

Jagster · Maio 15, 2023, 6:37pm

Nos países ocidentais, pelo menos, tal termo é totalmente sem sentido e mostra apenas uma coisa: o proprietário da plataforma não tem conhecimento algum.

Mevo · Maio 15, 2023, 10:34pm

O porquê é (muito) interessante, no entanto.
Por que você quer saber como fazer isso? Para fazê-lo, admitidamente.
Mas por quê? É bastante uma extensão da pergunta.

Esta é uma boa pergunta. E os próprios usuários do fórum estão se tornando os livros, aqui.

Eu acho que uma maneira, que parece ser feita em muitos sites, é analisar o comportamento do usuário. Se “muitas” páginas são escaneadas, especialmente se isso é feito “muito rapidamente”, então provavelmente é scraping. Alguns parâmetros podem ser adicionados, como, por exemplo, o uso de um “endereço IP de hospedagem” em vez de um endereço IP residencial, o fato de um navegador “headless” ser usado, cookies não serem aceitos, etc.

Portanto, sim, tudo isso pode ser definido e ajustado daqui para frente para tentar bloquear tecnicamente o máximo de scraping possível. A maneira usual de fazer as coisas é pedir um CAPTCHA quando um comportamento semelhante a um bot é suspeito. Isso permite que os humanos continuem, o que não seria possível se o sistema simplesmente estivesse bloqueando o usuário.

Agora, tudo isso sempre pode ser contornado se alguém quiser continuar fazendo isso. Evitando ser identificado e aparecendo como muitos usuários diferentes, parecendo mais legítimo em muitas frentes, rotacionando IPs residenciais, etc. É quase um esporte saber como fazer o scraping do que um sistema foi projetado para impedir que você faça. Algumas pessoas são muito boas nisso. Existem muitos recursos por aí para fazer isso.

Entidades legítimas como as pessoas por trás do ChatGPT e similares provavelmente não seguirão esse caminho. Eles também provavelmente serão mais inclinados a respeitar os Termos de Serviço, virão com um user agent direto, etc. Para desencorajá-los, o fato “legal” e simples de você dizer que o proíbe pode ser suficiente. Isso não funcionará com pessoas que se importam menos com legalidades e retidão.

Uma solução bastante simples é restringir o quanto pode ser visualizado como convidado sem ter que fazer login. Mas, novamente, como muitas vezes, você terá muita dificuldade em impedir aqueles que realmente querem fazer isso se eles estiverem motivados o suficiente. Estes últimos podem não ser as pessoas importantes a serem visadas neste assunto, no entanto.

pfaffman · Maio 17, 2023, 7:56am

Eu acho que isso é controlado como qualquer outro rastreador. Existem configurações para negar acesso por agente de usuário. Se o rastreador usar um agente de usuário indicando o que está fazendo, você pode controlá-lo.

Não está claro para mim de onde o GPT obteve seu conjunto de dados inicial ou onde obterá novos dados. Você precisaria descobrir quais são os agentes de usuário, eu acho.

Jagster · Maio 17, 2023, 7:59am

Funciona além do robots.txt, em nível de firewall?

satonotdead · Maio 17, 2023, 10:25am

Discussões na internet têm dias contados e essa thread e a resposta à minha pergunta genuína (para explorar o como) são claramente um prelúdio.

Atualmente, não há como fazer isso, receio, pois a pesquisa é apenas um invólucro da web.
https://answers.microsoft.com/en-us/bing/forum/all/opt-out-of-bing-chatgpt-ai/8d76e65b-6c8b-42ab-be4b-39e433045703

User-agent: OpenAI Disallow: /

Ou

<meta name='robots' content='noindex, nofollow'>

Jagster · Maio 17, 2023, 10:47am

E essa regra será seguida com certeza?

anon48433008 · Maio 17, 2023, 11:05am

Gostaria de dar minha opinião e dizer que este é um ótimo tópico, mal se encaixa como um permitido aqui do meu ponto de vista, mas se encaixa

Acho que isso resume bem

lol, isso está entrando no território do Skynet, a IA fará suas próprias coisas

Gostaria de oferecer um exemplo de sim, ela fará

Muitas religiões são baseadas na Bíblia, e a Bíblia é baseada nas tradições dos homens

Então sim, o criado pode superar o criador.

Um dia, se não formos parados, poderemos ser os livros de uma nova Bíblia

Vocês todos podem ser discípulos

Ouroboros

É uma ferramenta ou um brinquedo até que não seja mais

Jagster · Maio 17, 2023, 11:42am

Uma piada engraçada — mas no mundo real, a maioria dos bots não segue as regras do robots.txt. É apenas uma sugestão, não algum tipo de firewall.

Mevo · Maio 17, 2023, 5:50pm

robots.txt são instruções destinadas aos próprios rastreadores
Isso se baseia na suposição de que eles as seguirão. Nada diz que será o caso “com certeza”.

Você pode bloquear user agents no nível do seu servidor web. Na maioria das vezes, o NGINX é usado com o Discourse.
Aqui, seu servidor web não servirá nenhum conteúdo a esses user agents. Isso é feito adicionando algumas linhas ao arquivo de configuração NGINX do seu site. Faça uma pesquisa na web por nginx block user agent ou pesquisa semelhante.

Isso é “com certeza”, se o rastreador mostrar um user agent honesto.

mattdm · Maio 17, 2023, 5:53pm

O que decididamente não é “com certeza”.

Mevo · Maio 17, 2023, 8:33pm

Ele bloqueia com certeza user agents que você deseja bloquear
(EDITAR para % claro: Usando NGINX como apresentado acima e não apenas confiando em robots.txt)

Não é uma solução garantida para todo o problema se você estiver lidando com atores maliciosos que não se identificam corretamente. Mas acho que você entendeu perfeitamente isso.

Jagster · Maio 17, 2023, 9:22pm

Isso começa a ficar um pouco chato… mas não. Há muitas situações em que nem mesmo o Google segue o robots.txt.

Ainda é uma sugestão e ninguém deve confiar nela.

satonotdead · Maio 19, 2023, 4:37am

OK, estamos pensando o mesmo.

Vejo duas respostas que realmente me assustaram e não quero pagar, mas cedo ou tarde isso pode ser obrigatório para o trabalho.

(Não forneci meu número de cartão de crédito e sempre uso tudo temporário, pelo menos para ficar um pouco fora do radar)

Mas as pessoas estão pagando e saltaram para 4 e 10X, depois um 100X, 24 dólares por dia. Eu trabalho diretamente com mercados e isso é surreal.

Eu geralmente não uso este dispositivo para pesquisar na web (escolho captchas para alguns grandes negócios) porque me sinto mais seguro e privado navegando no Linux. Suspeito que alguém possa pensar de forma semelhante e respeito se esse não for o seu caso.

O código aberto também é uma espécie de controle, pode parecer um pouco neurótico ou algo assim, mas prefiro conversas humanas em nossa comunidade e estamos discutindo limites e talvez usando os métodos para bloquear algo que ninguém sabe onde pode parar.

Alucinação foi injetada, as pessoas estão se clonando. Isso pode quebrar a informação e espalhar muito controle em conjunto.

Talvez estejamos em um bom momento para discutir limites, valores, privacidade. Não censurar, fazer reclamações ou evitar uma boa discussão.

Se estivermos de acordo neste tópico, devo compartilhar meus pontos e pesquisar a fundo meus pontos não sólidos, mas reais.

A IA sem OpenAI (não aberta) poderia ser uma ferramenta possível e melhor para as comunidades?

Por favor, mova se considerar que isso é OP, ou mescle se quiser.

Brandon007 · Maio 26, 2023, 11:16pm

Não sei se este conceito pode ser adaptado para um fórum, mas executo este código no meu arquivo .htaccess no meu blog.

RewriteCond %{HTTP_USER_AGENT} ^.*(aolbuild|baidu|bingbot|bingpreview|msnbot|duckduckgo|mediapartners-google|googlebot|Googlebot|adsbot-google|teoma|slurp|yandex|Baiduspider|facebookexternalhit|applebot|FeedFetcher-Google).*$ [NC]	
RewriteRule ^/?REDIRECT-THIS-URL?$\t/TO-THIS-URL\t[L,R=301,NC]

A ideia aqui é redirecionar apenas esses user agents que visitam a página X. No meu caso, redireciono os user agents acima que visitam artigos de eventos atuais, enquanto continuo a disponibilizar o meu conteúdo bíblico para tudo. Fiz isso para fins de SEO, o que fez a diferença, talvez haja uma maneira de usar algo assim para bloquear um bot de IA?

O problema com o meu código é que, para cada URL, você precisa de outra linha de código.

Mevo · Maio 27, 2023, 10:42am

Claro. Esta é uma solução onde seu servidor web lida com user agents específicos de uma certa maneira. É praticamente o mesmo que descrevi acima. Funciona desde que o bot se identifique com um user agent correto.

stance455 · Junho 10, 2023, 12:11am

Para dar continuidade a este tópico, alguém sabe se o user agent do ChatGPT está recebendo a versão do Crawler? Duvido… talvez isso deva ser adicionado à lista de “crawlers”.

Tópico		Respostas	Visualizações
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community ai	103	8317	13 de Fevereiro de 2025
What is stopping you from trying out Discourse AI? Community ai	35	1794	23 de Agosto de 2025
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	36	1434	26 de Novembro de 2025
Is there any AI at the core of standard Discourse? Support	15	1563	31 de Maio de 2023
Discourse AI - AI bot Site Management ai , ai-bot , how-to	53	16614	22 de Fevereiro de 2026

Como impedir que conteúdo da comunidade seja usado para treinar LLMs como ChatGPT?

Tópicos relacionados