Soluções como GPT e outros LLMs precisam de conjuntos de dados de treinamento. Como podemos impedir que o conteúdo de nossas comunidades seja usado para treinar esses modelos? Devemos adicionar algo às nossas condições de uso?
Pensei nisso depois de ler que o Reddit fará algumas mudanças para evitar que modelos sejam treinados com seus dados sem serem pagos:
Realmente fará diferença quando houver 10 provedores diferentes para escolher a preço de custo?
Aprender com as obras coletivas da humanidade pareceria justo o suficiente: é o que os humanos fazem o tempo todo, então por que não as máquinas?
O Reddit cobra dos humanos pelas coisas que eles aprendem no Reddit?
Isso parece um pouco com o lucro do Reddit.
E não vamos entrar no fato de que todo o conteúdo do Reddit foi dado gratuitamente pelos usuários, então por que o Reddit não deveria pagar aos seus usuários?
Isso parece mais com “se eu posso ler um livro que pego na biblioteca, por que não posso copiá-lo e vender cópias para outras pessoas?” do que “se eu posso aprender com um livro, um computador não pode?”. Talvez eu seja velho, mas não estou pronto para pensar que um monte de computadores executando um programa é o mesmo que uma pessoa.
Mas também acho que já existem medidas em vigor para impedir a raspagem em larga escala. Ou talvez sites de indexação para motores de busca sejam raspagem.
Bem, não é amplamente aceito no mundo humano que alguém entre nas casas e locais de trabalho de outros, copie tudo e depois recrie tudo para benefício próprio para ganhar dinheiro.
Esta não é uma questão fácil. Há uma questão moral, ética e financeira muito grande que pode ser resumida em duas: direitos autorais e patentes são propriedade virtual aceitável ou não.
Para mim, este é um problema bastante fácil, no entanto. Talvez porque sou um peixe tão pequeno e basicamente de mente simples. Assim que tenho que pagar pelo negócio de alguém que quer me vender de volta, sou contra. É por isso que odeio tão profundamente todo o tráfego de bots.
Novamente: a questão da IA é muito maior do que o ChatGPT. E eu sei e entendo isso. Mas por que eu pagaria ou deveria pagar quando é ensinado a modelos de linguagem?
Fato divertido amplamente conhecido sobre o ChatGPT
No mundo finlandês, sou um grande influenciador quando o tópico é alimentação de cães. Faço isso há mais de 30 anos e criei muitos textos públicos. Na verdade, meu site é o maior site informativo (e eu gostaria de dizer o mais importante ) em finlandês.
Se eu perguntar qualquer coisa sobre nutrição de cães em inglês, o ChatGPT dará teorias de BARF antigas e amplamente imprecisas. Se eu fizer a mesma pergunta em finlandês, receberei meus próprios textos.
Isso acontece porque a forma de aprendizado do ChatGPT segue o pensamento um milhão de moscas não podem estar erradas.
Desculpe, mas acho que não. A IA lembra padrões e faz algumas relações, mas não consegue intuir, sentir ou criar de verdade.
A IA não pensa de forma adequada como os humanos e não registra tempo, sentimentos e vida.
Aliás, concordo com o resto do seu ponto de vista. Colaboração mais encontrar e compartilhar casos de uso é bom para todos (pelo menos para não ser substituído, o que parece inevitável para pessoas que não aprendem a sentir, intuir ou criar).
A situação geral me lembra a Revolução Industrial e alguns filmes distópicos
Vou discordar de você, porque você está perdendo meu ponto.
Meu uso do termo “semelhante” foi justificado porque eles estão desenvolvendo maneiras de identificar coisas por características, assim como os humanos, em vez de copiar os dados literalmente e armazená-los: é essa distinção que estou apontando e esta é uma distinção crítica, tanto logicamente quanto potencialmente legalmente.
Sentimentos e emoções são irrelevantes para a discussão aqui: o tópico é o armazenamento e a reprodução do conhecimento. E sobre esse tópico, a IA está quase certamente usando técnicas semelhantes às do cérebro humano para se treinar e, em seguida, usar esse modelo.
E foi assim que as coisas foram desenvolvidas neste espaço: eles criaram modelos que eram uma aproximação de como as redes neurais pareciam funcionar em nossos cérebros e, em seguida, as escalaram. E eis que: começou a se comportar muito como um humano - mais do que qualquer modelo de linguagem natural jamais se comportou. Isso prova meu ponto.
Você está argumentando que um Rolls Royce é um carro melhor, mas ainda é um carro.
A IA agora chegou ao ponto em que está se comportando muito como um humano. Um comportamento muito sofisticado está emergindo, mas isso não é um acidente, porque os cientistas buscaram copiar as técnicas de aprendizado humano.
Claro, há outras camadas a serem consideradas e as emoções são apenas uma (outra enorme é o conceito de ‘ego’ e a importância de informações sensoriais semelhantes às humanas, até mesmo vestibulares, que são consideradas críticas para a percepção do ‘ego’), mas isso não altera o argumento aqui, na minha humilde opinião.
Não, eu apenas disse que a IA não pode aprender como os humanos (agir como se não fosse aprender). Isso não é nem de perto possível e acho que é importante ter em mente.
Então concordo que dados públicos são públicos. E para mim tudo bem ter diferenças, isso nos torna humanos (e não IA)
Isso está simplesmente errado, na minha opinião.
As conquistas que fizemos neste espaço são quase certamente porque a IA está aprendendo (mais) como os humanos.
Que é que a IA está aprendendo com características (como nós fazemos) e não copiando informações exatas. Ela está aprendendo a generalizar e não a depender de detalhes completos para fazer distinções.
Por causa disso, ela não precisa armazenar obras completas em alta definição, palavra por palavra.
Sem dúvida, existem muitas outras técnicas de aprendizado que ainda não foram incorporadas, mas esta técnica foi muito incorporada.
Na verdade, acho abominável que músicas de jazz escritas na década de 1930 estejam sujeitas a direitos autorais, quando se poderia argumentar que muitas características da música são fenômenos inerentemente humanos que ninguém deveria possuir: pegue o exemplo do “círculo das quintas” - esta é uma estrutura implícita na música que ajuda a formar muitas canções, desde simples músicas de rock de 3 acordes dos anos 50 até melodias de Jazz altamente sofisticadas.
E como eu sugeri, não estamos falando de armazenar e regurgitar material protegido por direitos autorais aqui literalmente.
Impedir a IA de usar características da música como o círculo das quintas só porque a maioria da música está sujeita a direitos autorais é ridículo!
Poder-se-ia argumentar que os autores dessa música se beneficiaram muito da condição humana e já lucraram muito. Por que um bisneto deveria ganhar dinheiro com a obra de seu ancestral, que por si só se baseia em conhecimento geral, me confunde.
Receio não ser um especialista nisso, mas acho que os crawlers não conseguem acessar o conteúdo se um site não for publicamente visível, então, se essa for uma opção para você, pode ser a maneira mais eficaz.
Isso não é nada disso. Essas ferramentas são, em alguns aspectos, inspiradas em conceitos neurais biológicos, mas na implementação real não são funcionalmente semelhantes. Isso pode parecer um detalhe, mas acho que é muito importante, porque o argumento parece filosoficamente convincente. Analogias podem ser muito perigosas dessa forma.
Aqui estão algumas maneiras específicas pelas quais as redes neurais computacionais não estão “aprendendo padrões de uma maneira semelhante à nossa”.
Nossos neurônios estão conectados localmente e multidimensionalmente, com alguns aglomerados densos e outros menos conectados; redes neurais são tipicamente organizadas em camadas, com cada camada totalmente interconectada ou uma camada “convolucional” intencionalmente projetada.
Cérebros biológicos operam de forma assíncrona, com neurônios disparando em taxas diferentes, e com a própria frequência carregando informações. Redes neurais são basicamente operações massivamente paralelas. (É por isso que elas são tão adequadas para computação GPGPU.)
Neurônios são responsáveis tanto pela computação quanto pela memória. Não há armazenamento ou recuperação separada, ou execução de funções. Isso por si só torna um tipo de sistema de processamento muito diferente.
Estranhamente: a comunicação cerebral é mais binária do que o que estamos fazendo com computadores: um neurônio dispara ou não, enquanto um “neurônio artificial” geralmente recebe e envia intervalos de valores contínuos (representados como ponto flutuante). (Novamente, isso não é processamento de forma alguma semelhante à maneira como entendemos o funcionamento dos cérebros.)
O aprendizado funciona de forma diferente: no aprendizado humano, as conexões realmente mudam. (Não entendemos isso muito bem.) Em uma rede neural, a arquitetura é escolhida e fixa, e o “aprendizado” é uma questão de ajuste de pesos. (Ironicamente, também não entendemos isso muito bem, realmente.)
Especificamente, certamente não está aprendendo a generalizar. Em vez disso, está criada de forma que tenha a capacidade de produzir respostas que pareçam generalizar.
Mas, na verdade, ela não consegue generalizar.
Um exercício interessante com o ChatGPT é perguntar sobre multiplicação. Ele afirmará seriamente que tem um entendimento do algoritmo para multiplicação longa. De fato, se você pedir para multiplicar números de dois ou três dígitos, ele provavelmente (mas não com certeza!) dará a resposta correta. Mas então tente números de cinco ou seis dígitos. Ele dará respostas que parecem ter o número certo de dígitos, mas que na verdade não estarão corretas.
Se você pedir para explicar, ele dirá que seguiu um algoritmo e, se você pedir para mostrar o trabalho, ele o fará, e será um disparate que está moldado para parecer a resposta certa. Você provavelmente até encontrará, nas etapas, multiplicação de um único dígito completamente errada. Ele não “sabe” que essas etapas são a mesma coisa que a multiplicação de um único dígito que acabou de fazer com confiança alguns minutos antes, porque ele não generalizou nada disso.
E a matemática não tem nada de especial aqui. É apenas uma maneira fácil de puxar um pouco o véu. A mesma coisa básica acontece ao tentar fazer com que ele escreva um poema.
Não me entendam mal! Acho que podemos fazer coisas incríveis com a IA, mesmo como ela existe hoje. Mas, por favor, não vamos formar nossas políticas em torno de analogias.