Comment empêcher le contenu de la communauté d'être utilisé pour entraîner des LLM comme ChatGPT ?

StephaneFe · Mai 13, 2023, 6:58

Les solutions GPT et autres LLM nécessitent des jeux de données d’entraînement. Comment empêcher que le contenu de nos communautés soit utilisé pour entraîner de tels modèles ? Devrions-nous ajouter quelque chose à nos conditions d’utilisation ?

J’ai pensé à cela après avoir lu que Reddit allait apporter des modifications pour éviter que les modèles soient entraînés sur leurs données sans être rémunérés :

https://www.nytimes.com/2023/04/18/technology/reddit-ai-openai-google.html

Jagster · Mai 13, 2023, 7:13

Ces projets utilisent-ils des moissonneuses qui indiquent un agent utilisateur ?

merefield · Mai 13, 2023, 7:30

Est-ce que cela importera vraiment quand il y aura 10 fournisseurs différents au prix coûtant ?

Apprendre des œuvres collectives de l’humanité semblerait tout à fait raisonnable : c’est ce que font les humains tout le temps, alors pourquoi pas les machines ?

Reddit facture-t-il les humains pour ce qu’ils apprennent sur Reddit ?

Cela ressemble à une recherche de profit de la part de Reddit.

Et n’abordons pas le fait que tout le contenu de Reddit a été donné gratuitement par les utilisateurs, alors pourquoi Reddit ne devrait-il pas payer ses utilisateurs ?

pfaffman · Mai 14, 2023, 12:18

Cela ressemble davantage à « si je peux lire un livre que j’emprunte à la bibliothèque, pourquoi ne puis-je pas le copier et vendre des copies à d’autres personnes ? » qu’à « si je peux apprendre d’un livre, un ordinateur ne le peut-il pas ? » peut-être que je suis vieux, mais je ne suis pas prêt à penser qu’un tas d’ordinateurs exécutant un programme équivaut à une personne.

Mais je pense aussi qu’il existe déjà des mesures en place pour empêcher le scraping en gros. Ou peut-être que les sites d’indexation pour les moteurs de recherche constituent du scraping.

Ce sont des temps intéressants.

Jagster · Mai 14, 2023, 6:05

Eh bien, il n’est pas largement accepté dans le monde humain que quelqu’un entre chez d’autres, copie tout, puis recrée tout pour son propre bénéfice afin de gagner de l’argent.

Ce n’est pas une question facile. Il y a une très grande question morale, éthique et financière qui peut se résumer à deux : les droits d’auteur et les brevets sont-ils une propriété virtuelle acceptable ou non.

Pour moi, c’est un problème assez facile, cependant. Peut-être parce que je suis un poisson si petit et si simple d’esprit. Dès que je dois payer pour l’activité de quelqu’un qui veut me revendre quelque chose, je suis contre. C’est pourquoi je déteste tellement tout le trafic des bots.

Encore une fois : la question de l’IA est bien plus vaste que ChatGPT. Et je le sais et je le comprends. Mais pourquoi paierais-je ou devrais-je payer quand il est enseigné aux modèles linguistiques ?

Fait amusant bien connu de ChatGPT

Dans le monde finlandais, je suis un très grand influenceur lorsqu’il s’agit de l’alimentation des chiens. Je fais cela discrètement depuis plus de 30 ans et j’ai beaucoup créé de textes publics. En fait, mon site est le plus grand site informatif (et j’aimerais dire le plus important ) en finnois.

Si je pose des questions sur la nutrition canine en anglais, ChatGPT donne de vieilles théories BARF largement inexactes. Si je pose la même question en finnois, j’obtiendrai mes propres textes.

Cela s’est produit parce que la façon d’apprendre de ChatGPT suit la pensée un million de mouches ne peuvent pas avoir tort.

merefield · Mai 14, 2023, 8:01

Parce que ce n’est pas une copie mot à mot.

Personne ne fait payer qui que ce soit pour lire un livre sur le communisme dans une bibliothèque, puis aller sur un talk-show politique pour prôner le communisme.

Les robots apprennent des schémas de la même manière que nous.

De plus, devant un tribunal, sans avoir supervisé le processus d’apprentissage, comment sauriez-vous si c’est le cas ou non ?

Dans le droit d’auteur, il est certainement simple de prouver si quelqu’un a copié votre travail, mais ici, ce n’est ni une copie ni facile de prouver que vous y avez eu accès.

Quelque chose est-il vraiment nouveau sur Reddit de toute façon ?!?!?

satonotdead · Mai 14, 2023, 8:56

Désolé, mais je ne pense pas. L’IA se souvient des schémas et établit des relations, mais elle ne peut pas deviner, ressentir ou créer véritablement.

L’IA ne pense pas de la même manière que les humains et n’enregistre pas le temps, les sentiments et la vie.

Au fait, je suis d’accord avec le reste de votre point de vue. La collaboration, la recherche et le partage de cas d’utilisation sont bénéfiques pour tous (du moins pour éviter d’être déplacé, ce qui semble inévitable pour les personnes qui n’apprennent pas à ressentir, deviner ou créer).

La situation générale me rappelle la révolution industrielle et certains films dystopiques

merefield · Mai 14, 2023, 8:59

Je vais être en désaccord avec vous, car vous manquez mon propos.

Mon utilisation du terme « similaire » était justifiée car ils développent des moyens d’identifier des choses par leurs caractéristiques, tout comme les humains, par opposition à la copie verbatim des données et à leur stockage : c’est cette distinction que je souligne, et c’est une distinction critique, tant sur le plan logique que potentiellement juridique.

Les sentiments et les émotions sont sans importance dans la discussion ici : le sujet est le stockage et la reproduction des connaissances. Et sur ce sujet, l’IA utilise très certainement des techniques similaires à celles du cerveau humain pour s’entraîner, puis utiliser ce modèle.

Et c’est ainsi que les choses ont été développées dans ce domaine : ils ont créé des modèles qui étaient une approximation du fonctionnement des réseaux neuronaux dans nos cerveaux, puis les ont mis à l’échelle. Et miracle : cela a commencé à se comporter de manière très similaire à un humain - plus que tout modèle de langage naturel jamais conçu. Cela prouve largement mon propos.

satonotdead · Mai 14, 2023, 9:10

C’est impossible quand cela concerne des humains

(Et c’est probablement ce qui a motivé l’OP)

Nous pouvons toujours être en désaccord et je ne suis pas allé plus loin. Je vous respecte et partage simplement mes points de vue.

merefield · Mai 14, 2023, 9:13

Vous soutenez qu’une Rolls Royce est une meilleure voiture, mais cela reste une voiture.

L’IA a maintenant atteint un point où elle se comporte de manière très similaire à un humain. Un comportement très sophistiqué émerge, mais ce n’est pas un accident, car les scientifiques ont cherché à copier les techniques d’apprentissage humain.

Bien sûr, il y a d’autres couches à considérer et les émotions ne sont qu’une d’entre elles (une autre énorme est le concept d’« ego » et l’importance des informations sensorielles semblables à celles des humains, même vestibulaires, qui sont considérées comme critiques pour la perception de l’« ego »), mais cela ne modifie pas l’argument ici, à mon humble avis.

satonotdead · Mai 14, 2023, 9:16

Non, j’ai seulement dit que l’IA ne peut pas apprendre comme les humains (agir comme si ce n’était pas apprendre). Ce n’est pas du tout possible et je pense qu’il est important de le garder à l’esprit.

Alors je suis d’accord que les données publiques sont publiques. Et pour moi, c’est super OK d’avoir des différences, c’est ce qui fait de nous des humains (et pas des IA)

merefield · Mai 14, 2023, 9:18

C’est tout simplement faux, à mon humble avis.

Les progrès que nous avons réalisés dans ce domaine sont très certainement dus au fait que l’IA apprend (davantage) comme les humains.

satonotdead · Mai 14, 2023, 9:23

Seulement au niveau conceptuel, il y a beaucoup plus (!)

@StephaneFe puis-je demander pourquoi vous cherchez à limiter le « processus d’entraînement de l’IA » ? (C’est de l’empathie humaine )

merefield · Mai 14, 2023, 9:25

Je n’ai jamais prétendu qu’il n’y en avait pas beaucoup (!) plus ?

Je fais juste une distinction centrale :

C’est que l’IA apprend à partir de caractéristiques (comme nous le faisons) et ne copie pas d’informations exactes. Elle apprend à généraliser et à ne pas s’appuyer sur des détails complets pour faire des distinctions.

Par conséquent, elle n’a pas à stocker des œuvres complètes en haute définition, mot pour mot.

Il ne fait aucun doute qu’il existe de nombreuses autres techniques d’apprentissage qui n’ont pas encore été incorporées, mais celle-ci l’a été très certainement.

StephaneFe · Mai 14, 2023, 9:33

Pouvons-nous nous concentrer sur le comment et non sur le pourquoi ?

Le sujet n’est pas de discuter si cela est justifié ou non d’empêcher l’utilisation de nos données, mais comment le faire ?

Existe-t-il des moyens efficaces pour empêcher le scraping en général ? Par exemple, exiger une connexion pour accéder à la plupart du contenu ?

merefield · Mai 14, 2023, 9:39

Je pense que moralement et techniquement, c’est justifié.

Je trouve même révoltant que des chansons de jazz écrites dans les années 1930 soient soumises au droit d’auteur, alors que l’on pourrait soutenir que de nombreuses caractéristiques de la musique sont des phénomènes humains intrinsèques que personne ne devrait posséder : prenons l’exemple du « cycle des quintes » – c’est une structure implicite dans la musique qui aide à former de nombreuses chansons, des simples chansons rock à 3 accords des années 50 aux airs de jazz très sophistiqués.

Et comme je l’ai suggéré, nous ne parlons pas ici de stocker et de régurgiter du matériel protégé par le droit d’auteur mot pour mot.

Empêcher l’IA d’utiliser des caractéristiques musicales comme le cycle des quintes simplement parce que la plupart de la musique est soumise au droit d’auteur est ridicule !

On pourrait soutenir que les auteurs de cette musique ont grandement bénéficié de la condition humaine et en ont déjà largement profité. Pourquoi un arrière-petit-enfant devrait-il gagner de l’argent sur l’œuvre de son ancêtre, qui est elle-même basée sur des connaissances générales, me dépasse.

JammyDodger · Mai 14, 2023, 10:27

Je crains de ne pas être un expert en la matière, mais je ne pense pas que les robots d’exploration puissent accéder au contenu si un site n’est pas publiquement visible, donc si c’est une option pour vous, cela pourrait être le moyen le plus efficace.

mattdm · Mai 15, 2023, 3:43

Ce n’est absolument pas le cas. Ces outils sont, à certains égards, inspirés par des concepts neuronaux biologiques, mais dans leur implémentation réelle, ils ne sont pas fonctionnellement similaires. Cela peut sembler une vétille, mais je pense que c’est très important, car l’argument semble philosophiquement convaincant. Les analogies peuvent être très dangereuses de cette manière.

Voici quelques façons spécifiques dont les réseaux neuronaux computationnels n’apprennent pas des modèles « d’une manière similaire à la nôtre ».

nos neurones sont connectés localement et multidimensionnellement, avec des amas denses et d’autres moins connectés ; les réseaux neuronaux sont généralement organisés en couches, chaque couche étant soit entièrement interconnectée, soit une couche « convolutive » intentionnellement conçue.
les cerveaux biologiques fonctionnent de manière asynchrone, les neurones tirant à des vitesses différentes, et la fréquence elle-même transportant l’information. Les réseaux neuronaux sont essentiellement des opérations massivement parallèles. (C’est pourquoi ils sont si bien adaptés au calcul GPGPU.)
les neurones sont responsables à la fois du calcul et de la mémoire. Il n’y a pas de stockage ou de récupération séparé, ni d’exécution de fonctions. Ceci à lui seul rend un système de traitement d’un genre très différent.
étrange : la communication cérébrale est plus binaire que ce que nous faisons avec les ordinateurs : un neurone tire ou ne tire pas, tandis qu’un « neurone artificiel » reçoit et produit généralement des plages de valeurs continues (représentées en virgule flottante). (Encore une fois, cela ne traite pas du tout de la même manière que nous comprenons le fonctionnement du cerveau.)
l’apprentissage fonctionne différemment : dans l’apprentissage humain, les connexions changent réellement. (Nous ne comprenons pas très bien cela.) Dans un réseau neuronal, l’architecture est choisie et fixe, et « l’apprentissage » consiste à ajuster les poids. (Ironiquement, nous ne comprenons pas très bien cela non plus, en réalité.)

C’est aussi une lecture vraiment utile : What Is ChatGPT Doing … and Why Does It Work?—Stephen Wolfram Writings

mattdm · Mai 15, 2023, 4:14

Plus précisément, elle n’apprend certainement pas à généraliser. Elle est plutôt créée de manière à avoir la capacité de produire des réponses qui semblent généraliser.

Mais elle ne peut en fait pas du tout généraliser.

Un exercice intéressant avec ChatGPT est de lui poser des questions sur la multiplication. Elle prétendra avec ferveur avoir une compréhension de l’algorithme de la multiplication longue. En effet, si vous lui demandez de multiplier des nombres à deux ou trois chiffres, elle donnera probablement (mais pas avec certitude !) la bonne réponse. Mais essayez ensuite des nombres à cinq ou six chiffres. Elle donnera des réponses qui ressemblent au bon nombre de chiffres mais qui ne seront pas réellement correctes.

Si vous lui demandez d’expliquer, elle dira qu’elle a suivi un algorithme, et si vous lui demandez de montrer son travail, elle le fera, et ce sera du non-sens qui ressemble à la bonne réponse. Vous trouverez probablement même, dans les étapes, une multiplication de chiffres uniques complètement fausse. Elle ne « sait » pas réellement que ces étapes sont la même chose que la multiplication de chiffres uniques qu’elle vient de faire avec assurance quelques minutes auparavant, parce qu’elle n’a en fait rien généralisé.

Et les mathématiques n’ont rien de spécial ici. C’est juste un moyen facile de tirer un peu le rideau. La même chose de base se produit en essayant de lui faire écrire un poème.

Ne vous méprenez pas ! Je pense que nous pouvons faire des choses incroyables avec l’IA, même telle qu’elle existe aujourd’hui. Mais ne basons pas nos politiques sur des analogies, s’il vous plaît.

Jagster · Mai 15, 2023, 6:07

Non, ce n’est pas le cas. Ils apprennent les probabilités de la façon dont les mots se connectent les uns aux autres. Et cela conduit à un copier-coller de facto.

Nous apprenons à traiter les connaissances.

Sujet		Réponses	Vues
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community ai	103	8098	Février 13, 2025
What is stopping you from trying out Discourse AI? Community ai	35	1682	Août 23, 2025
Best practices dealing with Spam users and GPT reply posts Community	9	903	Juillet 31, 2023
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	35	1091	Novembre 20, 2025
Is there any AI at the core of standard Discourse? Support	15	1474	Mai 31, 2023

Comment empêcher le contenu de la communauté d'être utilisé pour entraîner des LLM comme ChatGPT ?

Sujets connexes