Como impedir que conteúdo da comunidade seja usado para treinar LLMs como ChatGPT?

StephaneFe · Maio 13, 2023, 6:58pm

Soluções como GPT e outros LLMs precisam de conjuntos de dados de treinamento. Como podemos impedir que o conteúdo de nossas comunidades seja usado para treinar esses modelos? Devemos adicionar algo às nossas condições de uso?

Pensei nisso depois de ler que o Reddit fará algumas mudanças para evitar que modelos sejam treinados com seus dados sem serem pagos:

https://www.nytimes.com/2023/04/18/technology/reddit-ai-openai-google.html

Jagster · Maio 13, 2023, 7:13pm

Esses projetos usam coletores que informam um user agent?

merefield · Maio 13, 2023, 7:30pm

Realmente fará diferença quando houver 10 provedores diferentes para escolher a preço de custo?

Aprender com as obras coletivas da humanidade pareceria justo o suficiente: é o que os humanos fazem o tempo todo, então por que não as máquinas?

O Reddit cobra dos humanos pelas coisas que eles aprendem no Reddit?

Isso parece um pouco com o lucro do Reddit.

E não vamos entrar no fato de que todo o conteúdo do Reddit foi dado gratuitamente pelos usuários, então por que o Reddit não deveria pagar aos seus usuários?

pfaffman · Maio 14, 2023, 12:18am

Isso parece mais com “se eu posso ler um livro que pego na biblioteca, por que não posso copiá-lo e vender cópias para outras pessoas?” do que “se eu posso aprender com um livro, um computador não pode?”. Talvez eu seja velho, mas não estou pronto para pensar que um monte de computadores executando um programa é o mesmo que uma pessoa.

Mas também acho que já existem medidas em vigor para impedir a raspagem em larga escala. Ou talvez sites de indexação para motores de busca sejam raspagem.

Estes são tempos interessantes.

Jagster · Maio 14, 2023, 6:05am

Bem, não é amplamente aceito no mundo humano que alguém entre nas casas e locais de trabalho de outros, copie tudo e depois recrie tudo para benefício próprio para ganhar dinheiro.

Esta não é uma questão fácil. Há uma questão moral, ética e financeira muito grande que pode ser resumida em duas: direitos autorais e patentes são propriedade virtual aceitável ou não.

Para mim, este é um problema bastante fácil, no entanto. Talvez porque sou um peixe tão pequeno e basicamente de mente simples. Assim que tenho que pagar pelo negócio de alguém que quer me vender de volta, sou contra. É por isso que odeio tão profundamente todo o tráfego de bots.

Novamente: a questão da IA é muito maior do que o ChatGPT. E eu sei e entendo isso. Mas por que eu pagaria ou deveria pagar quando é ensinado a modelos de linguagem?

Fato divertido amplamente conhecido sobre o ChatGPT

No mundo finlandês, sou um grande influenciador quando o tópico é alimentação de cães. Faço isso há mais de 30 anos e criei muitos textos públicos. Na verdade, meu site é o maior site informativo (e eu gostaria de dizer o mais importante ) em finlandês.

Se eu perguntar qualquer coisa sobre nutrição de cães em inglês, o ChatGPT dará teorias de BARF antigas e amplamente imprecisas. Se eu fizer a mesma pergunta em finlandês, receberei meus próprios textos.

Isso acontece porque a forma de aprendizado do ChatGPT segue o pensamento um milhão de moscas não podem estar erradas.

merefield · Maio 14, 2023, 8:01am

Porque não é uma cópia literal.

Ninguém cobra de ninguém por ler um livro sobre comunismo em uma biblioteca e depois ir a um talk show político defendendo o comunismo.

Os bots estão aprendendo padrões de forma semelhante a nós.

Além disso, em um tribunal, sem ter supervisionado o processo de aprendizado, como você saberia se ele o fez ou não?

Na lei de direitos autorais, é certamente simples provar se alguém copiou seu trabalho, mas aqui não é cópia nem é fácil provar que você teve acesso.

Alguma coisa é verdadeiramente nova no Reddit em qualquer caso?!?

satonotdead · Maio 14, 2023, 8:56am

Desculpe, mas acho que não. A IA lembra padrões e faz algumas relações, mas não consegue intuir, sentir ou criar de verdade.

A IA não pensa de forma adequada como os humanos e não registra tempo, sentimentos e vida.

Aliás, concordo com o resto do seu ponto de vista. Colaboração mais encontrar e compartilhar casos de uso é bom para todos (pelo menos para não ser substituído, o que parece inevitável para pessoas que não aprendem a sentir, intuir ou criar).

A situação geral me lembra a Revolução Industrial e alguns filmes distópicos

merefield · Maio 14, 2023, 8:59am

Vou discordar de você, porque você está perdendo meu ponto.

Meu uso do termo “semelhante” foi justificado porque eles estão desenvolvendo maneiras de identificar coisas por características, assim como os humanos, em vez de copiar os dados literalmente e armazená-los: é essa distinção que estou apontando e esta é uma distinção crítica, tanto logicamente quanto potencialmente legalmente.

Sentimentos e emoções são irrelevantes para a discussão aqui: o tópico é o armazenamento e a reprodução do conhecimento. E sobre esse tópico, a IA está quase certamente usando técnicas semelhantes às do cérebro humano para se treinar e, em seguida, usar esse modelo.

E foi assim que as coisas foram desenvolvidas neste espaço: eles criaram modelos que eram uma aproximação de como as redes neurais pareciam funcionar em nossos cérebros e, em seguida, as escalaram. E eis que: começou a se comportar muito como um humano - mais do que qualquer modelo de linguagem natural jamais se comportou. Isso prova meu ponto.

satonotdead · Maio 14, 2023, 9:10am

Isso é impossível quando se trata de humanos

(E provavelmente foi isso que motivou o OP)

Ainda podemos discordar e eu não fui além. Eu te respeito e apenas compartilho meus pontos de vista.

merefield · Maio 14, 2023, 9:13am

Você está argumentando que um Rolls Royce é um carro melhor, mas ainda é um carro.

A IA agora chegou ao ponto em que está se comportando muito como um humano. Um comportamento muito sofisticado está emergindo, mas isso não é um acidente, porque os cientistas buscaram copiar as técnicas de aprendizado humano.

Claro, há outras camadas a serem consideradas e as emoções são apenas uma (outra enorme é o conceito de ‘ego’ e a importância de informações sensoriais semelhantes às humanas, até mesmo vestibulares, que são consideradas críticas para a percepção do ‘ego’), mas isso não altera o argumento aqui, na minha humilde opinião.

satonotdead · Maio 14, 2023, 9:16am

Não, eu apenas disse que a IA não pode aprender como os humanos (agir como se não fosse aprender). Isso não é nem de perto possível e acho que é importante ter em mente.

Então concordo que dados públicos são públicos. E para mim tudo bem ter diferenças, isso nos torna humanos (e não IA)

merefield · Maio 14, 2023, 9:18am

Isso está simplesmente errado, na minha opinião.
As conquistas que fizemos neste espaço são quase certamente porque a IA está aprendendo (mais) como os humanos.

satonotdead · Maio 14, 2023, 9:23am

Apenas na camada conceitual, há muito mais (!)

@StephaneFe posso perguntar por que você está tentando limitar o ‘processo de treinamento de IA’? (Isso é empatia humana )

merefield · Maio 14, 2023, 9:25am

Eu nunca afirmei que não havia muito (!) mais?

Estou apenas fazendo uma distinção central:

Que é que a IA está aprendendo com características (como nós fazemos) e não copiando informações exatas. Ela está aprendendo a generalizar e não a depender de detalhes completos para fazer distinções.

Por causa disso, ela não precisa armazenar obras completas em alta definição, palavra por palavra.

Sem dúvida, existem muitas outras técnicas de aprendizado que ainda não foram incorporadas, mas esta técnica foi muito incorporada.

StephaneFe · Maio 14, 2023, 9:33am

Podemos focar no como e não no porquê?

O tópico não é discutir se isso é justificado ou não para impedir que nossos dados sejam usados, mas como fazer isso?

Existem maneiras eficazes de prevenir o scraping em geral? Por exemplo, exigir login para acessar a maior parte do conteúdo?

merefield · Maio 14, 2023, 9:39am

Acho que moral e tecnicamente é justificado.

Na verdade, acho abominável que músicas de jazz escritas na década de 1930 estejam sujeitas a direitos autorais, quando se poderia argumentar que muitas características da música são fenômenos inerentemente humanos que ninguém deveria possuir: pegue o exemplo do “círculo das quintas” - esta é uma estrutura implícita na música que ajuda a formar muitas canções, desde simples músicas de rock de 3 acordes dos anos 50 até melodias de Jazz altamente sofisticadas.

E como eu sugeri, não estamos falando de armazenar e regurgitar material protegido por direitos autorais aqui literalmente.

Impedir a IA de usar características da música como o círculo das quintas só porque a maioria da música está sujeita a direitos autorais é ridículo!

Poder-se-ia argumentar que os autores dessa música se beneficiaram muito da condição humana e já lucraram muito. Por que um bisneto deveria ganhar dinheiro com a obra de seu ancestral, que por si só se baseia em conhecimento geral, me confunde.

JammyDodger · Maio 14, 2023, 10:27am

Receio não ser um especialista nisso, mas acho que os crawlers não conseguem acessar o conteúdo se um site não for publicamente visível, então, se essa for uma opção para você, pode ser a maneira mais eficaz.

mattdm · Maio 15, 2023, 3:43am

Isso não é nada disso. Essas ferramentas são, em alguns aspectos, inspiradas em conceitos neurais biológicos, mas na implementação real não são funcionalmente semelhantes. Isso pode parecer um detalhe, mas acho que é muito importante, porque o argumento parece filosoficamente convincente. Analogias podem ser muito perigosas dessa forma.

Aqui estão algumas maneiras específicas pelas quais as redes neurais computacionais não estão “aprendendo padrões de uma maneira semelhante à nossa”.

Nossos neurônios estão conectados localmente e multidimensionalmente, com alguns aglomerados densos e outros menos conectados; redes neurais são tipicamente organizadas em camadas, com cada camada totalmente interconectada ou uma camada “convolucional” intencionalmente projetada.
Cérebros biológicos operam de forma assíncrona, com neurônios disparando em taxas diferentes, e com a própria frequência carregando informações. Redes neurais são basicamente operações massivamente paralelas. (É por isso que elas são tão adequadas para computação GPGPU.)
Neurônios são responsáveis tanto pela computação quanto pela memória. Não há armazenamento ou recuperação separada, ou execução de funções. Isso por si só torna um tipo de sistema de processamento muito diferente.
Estranhamente: a comunicação cerebral é mais binária do que o que estamos fazendo com computadores: um neurônio dispara ou não, enquanto um “neurônio artificial” geralmente recebe e envia intervalos de valores contínuos (representados como ponto flutuante). (Novamente, isso não é processamento de forma alguma semelhante à maneira como entendemos o funcionamento dos cérebros.)
O aprendizado funciona de forma diferente: no aprendizado humano, as conexões realmente mudam. (Não entendemos isso muito bem.) Em uma rede neural, a arquitetura é escolhida e fixa, e o “aprendizado” é uma questão de ajuste de pesos. (Ironicamente, também não entendemos isso muito bem, realmente.)

Esta também é uma leitura muito útil: What Is ChatGPT Doing … and Why Does It Work?—Stephen Wolfram Writings

mattdm · Maio 15, 2023, 4:14am

Especificamente, certamente não está aprendendo a generalizar. Em vez disso, está criada de forma que tenha a capacidade de produzir respostas que pareçam generalizar.

Mas, na verdade, ela não consegue generalizar.

Um exercício interessante com o ChatGPT é perguntar sobre multiplicação. Ele afirmará seriamente que tem um entendimento do algoritmo para multiplicação longa. De fato, se você pedir para multiplicar números de dois ou três dígitos, ele provavelmente (mas não com certeza!) dará a resposta correta. Mas então tente números de cinco ou seis dígitos. Ele dará respostas que parecem ter o número certo de dígitos, mas que na verdade não estarão corretas.

Se você pedir para explicar, ele dirá que seguiu um algoritmo e, se você pedir para mostrar o trabalho, ele o fará, e será um disparate que está moldado para parecer a resposta certa. Você provavelmente até encontrará, nas etapas, multiplicação de um único dígito completamente errada. Ele não “sabe” que essas etapas são a mesma coisa que a multiplicação de um único dígito que acabou de fazer com confiança alguns minutos antes, porque ele não generalizou nada disso.

E a matemática não tem nada de especial aqui. É apenas uma maneira fácil de puxar um pouco o véu. A mesma coisa básica acontece ao tentar fazer com que ele escreva um poema.

Não me entendam mal! Acho que podemos fazer coisas incríveis com a IA, mesmo como ela existe hoje. Mas, por favor, não vamos formar nossas políticas em torno de analogias.

Jagster · Maio 15, 2023, 6:07am

Não estão. Eles estão aprendendo probabilidades de como as palavras se conectam. E isso leva a um de facto copiar e colar.

Nós estamos aprendendo a processar conhecimento.

Tópico		Respostas	Visualizações
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community ai	103	8098	13 de Fevereiro de 2025
What is stopping you from trying out Discourse AI? Community ai	35	1682	23 de Agosto de 2025
Best practices dealing with Spam users and GPT reply posts Community	9	903	31 de Julho de 2023
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	35	1091	20 de Novembro de 2025
Is there any AI at the core of standard Discourse? Support	15	1474	31 de Maio de 2023

Como impedir que conteúdo da comunidade seja usado para treinar LLMs como ChatGPT?

Tópicos relacionados