Comment empêcher le contenu de la communauté d'être utilisé pour entraîner des LLM comme ChatGPT ?

C’est quelque peu exaspérant.

J’utilisais le terme « similaire » de manière quelque peu lâche mais tout à fait valide, uniquement en ce qui concerne un concept et uniquement pour soutenir un point spécifique. Je pensais que c’était évident ?

Mon point en affirmant la similarité était limité au concept d’extraction et de mise en correspondance de « caractéristiques », rien d’autre, afin de le distinguer des concepts d’apprentissage par rapport à la mémorisation de copies mot pour mot.

Je suis pleinement conscient qu’il existe également des différences significatives.

Vous savez bien qu’une tête humaine ne ressemble pas à un centre de données, n’est-ce pas ? :rofl:

Dites-vous qu’il n’y a pas d’extraction et de mise en correspondance de caractéristiques dans le cerveau humain ?

Parce que c’est ce qu’il fait :

« Apprentissage de détecteurs de caractéristiques
Pour permettre au système perceptif de faire les distinctions fines requises pour contrôler le comportement, le cortex sensoriel a besoin d’un moyen efficace d’adapter les poids synaptiques de plusieurs couches de neurones détecteurs de caractéristiques. »

Voir aussi Feature detection (nervous system) - Wikipedia

C’est une contradiction. Ce n’est absolument pas du copier-coller et c’est le cœur de mon propos.

C’est même discutablement pas de la compression avec perte :

Oui, il peut. Et encore, attention :sourire: , pas dans la mesure où nous le pouvons.

ChatGPT est en train de généraliser. C’est ce que la mise en correspondance de motifs, alias l’extraction de caractéristiques, fait ! Il est capable de configurer des mots dans un ordre logique qui respecte les règles de grammaire. Il a « appris » un ensemble complexe de caractéristiques et est capable de construire des phrases qui ont un sens grammatical, quel que soit le domaine. Il ne stocke pas toutes les combinaisons de mots possibles et ne régurgite pas exactement une correspondance à chaque fois, c’est-à-dire pas du copier-coller ! Ce n’est qu’une démonstration. Les réponses qu’il donne démontrent une sophistication émergente.

Mais bien sûr, il n’est pas assez sophistiqué pour « comprendre » les mathématiques. Pas encore. (et peut-être jamais avec cette technique actuelle ?).

Je reconnais pleinement que le niveau de sophistication n’est pas comparable à celui du cerveau, qu’il est limité en portée et que l’implémentation physique de tout cela est très différente. Mais cela n’invalide pas mon propos…

… qui était spécifique !

La prochaine fois, je veillerai à nuancer méticuleusement mon propos pour éviter ce bruit inutile. :sourire:

2 « J'aime »

Aussi fascinante et digne de discussion que soit la philosophie, je pense que l’OP recherche spécifiquement des conseils pratiques sur la façon de l’atténuer. Pourrions-nous rester sur le sujet et nous concentrer sur ceux-ci ? :pray:

11 « J'aime »

Je suis tout à fait d’accord ! Mais nous avons dévié…

En effet. Il existe un risque réel que les données d’entraînement soient exposées dans la sortie du LLM, et lorsque cela se produit, cela peut poser un problème de confidentialité ou de droit d’auteur. Je pense que les outils appropriés sont d’une part le droit de la protection des données, et d’autre part le droit d’auteur, et donc la licence.

Je pense qu’il ne serait pas inutile de stipuler dans les conditions d’utilisation l’interdiction de certains actes, tels que le scraping de données, le téléchargement à grande échelle, l’inclusion dans des données d’entraînement pour l’apprentissage automatique. Mais pour l’application, je suggérerais une certaine clarté dans la licence du contenu. Pour l’efficacité, une licence claire et appropriée devrait faire partie de l’installation par défaut, afin que la plupart des instances de Discourse adoptent la même approche pour se protéger.

Je me tournerais vers des entités telles que l’EFF pour des modèles de politiques appropriées.

3 « J'aime »

Oh, quelque chose d’important à ajouter. Si vous accordez une licence restrictive au contenu de votre forum, vous pourriez, dans le pire des cas, rendre difficile, voire impossible, la migration de votre forum vers une nouvelle plateforme. Ne faites pas cela !

(Il y a aussi un aspect social, bien qu’il puisse être mineur. Si les conditions de votre forum stipulent que les contributions d’une personne deviennent la propriété du forum, cela rebutera certaines personnes. Mais vous avez besoin de quelque chose : vous ne voulez pas que les utilisateurs qui partent puissent insister pour que tous leurs messages soient supprimés. C’est un problème différent de celui abordé ici, mais cela montre que les conditions sont importantes.)

2 « J'aime »

Dans les pays occidentaux, au moins, un tel terme est totalement dénué de sens et ne montre qu’une chose : le propriétaire de la plateforme n’a absolument aucune connaissance.

2 « J'aime »

[quote=“StephaneFe, post:19, topic:264907”]
Pouvons-nous nous concentrer sur le comment et non sur le pourquoi ?
[/quote]Le pourquoi est (très) intéressant, cependant.
Pourquoi voulez-vous savoir comment faire ? Pour le faire, certes.
Mais pourquoi ? C’est une extension de la question.

[quote=“Jay Pfaffman, post:6, topic:264907, username:pfaffman”]
« Si je peux lire un livre que j’emprunte à la bibliothèque, pourquoi ne puis-je pas le copier et vendre des copies à d’autres personnes ? »
[/quote]C’est une bonne question. Et les utilisateurs du forum deviennent eux-mêmes les livres, ici.

[quote=“StephaneFe, post:19, topic:264907”]
Existe-t-il des moyens efficaces pour empêcher le scraping en général ?
[/quote]Je suppose qu’une façon, qui semble être utilisée sur de nombreux sites, est d’analyser le comportement de l’utilisateur. Si « trop » de pages sont parcourues, surtout si cela se fait « trop rapidement », alors il s’agit probablement de scraping. Certains paramètres peuvent alors être ajoutés, comme par exemple l’utilisation d’une « adresse IP d’hébergement » plutôt qu’une adresse IP résidentielle, le fait qu’un navigateur « sans tête » soit utilisé, que les cookies ne soient pas acceptés, etc.

Donc oui, tout cela peut être défini et affiné à l’avenir pour essayer de bloquer techniquement autant de scraping que possible. La façon habituelle de faire est de demander un CAPTCHA lorsqu’un comportement de type bot est suspecté. Cela permet aux humains de continuer, ce qui ne serait pas possible si le système bloquait simplement l’utilisateur.

Maintenant, tout cela peut toujours être contourné si quelqu’un veut toujours le faire. En évitant d’être identifié et en apparaissant comme de nombreux utilisateurs différents, en apparaissant plus légitime sur de nombreux fronts, en faisant tourner les adresses IP résidentielles, etc. C’est presque un sport de savoir comment scraper ce qu’un système est conçu pour vous empêcher de faire. Certaines personnes sont très douées pour cela. Il existe de nombreuses ressources à cet effet.

Les entités légitimes comme les personnes derrière ChatGPT et autres ne prendront probablement pas cette voie. Elles seront également plus enclines à respecter les conditions d’utilisation, à se présenter avec un agent utilisateur clair, etc. Pour les décourager, le fait « légal » et simple que vous disiez l’interdire peut suffire. Cela ne fonctionnera pas avec les personnes qui se soucient moins des aspects légaux et de la franchise.

Une solution assez simple consiste à limiter la quantité de contenu visible en tant qu’invité sans avoir à se connecter. Mais encore une fois, comme souvent, vous aurez beaucoup de mal à empêcher ceux qui veulent vraiment le faire s’ils sont suffisamment motivés. Ces derniers ne sont peut-être pas les personnes importantes à cibler dans ce domaine, cependant.

4 « J'aime »

Je pense que cela est contrôlé comme tout autre robot d’exploration. Il existe des paramètres pour refuser l’accès par agent utilisateur. Si le robot d’exploration utilise un agent utilisateur indiquant ce qu’il fait, vous pouvez le contrôler.

Il n’est pas clair pour moi où GPT a obtenu son ensemble de données initial ni où il obtiendra de nouvelles données. Vous devrez déterminer quels sont les agents utilisateurs, je pense.

6 « J'aime »

Cela fonctionne-t-il au-delà du robots.txt, au niveau du pare-feu ?

2 « J'aime »

Les discussions sur Internet ont des jours comptés et ce fil et la réponse à ma question sincère (afin d’explorer le comment) sont clairement un prélude.

Actuellement, il n’y a aucun moyen de le faire, je crains, car la recherche n’est qu’un wrapper web.
https://answers.microsoft.com/en-us/bing/forum/all/opt-out-of-bing-chatgpt-ai/8d76e65b-6c8b-42ab-be4b-39e433045703

User-agent: OpenAI Disallow: /

Ou

<meta name='robots' content='noindex, nofollow'>

3 « J'aime »

Et cette règle sera sûrement suivie ?

2 « J'aime »

J’aimerais donner mon avis et dire que c’est un excellent sujet, qui passe tout juste comme étant autorisé ici selon moi, mais qui l’est quand même

Je dirais que cela résume bien les choses

lol, ça entre dans le territoire de Skynet, l’IA fera sa propre loi

J’aimerais donner un exemple pour dire oui, elle le fera

De nombreuses religions sont basées sur la Bible, et la Bible est basée sur les traditions des hommes

Donc oui, la création peut surpasser le créateur.

Un jour, si nous ne sommes pas arrêtés, nous pourrions bien être les livres d’une nouvelle Bible

Vous pourriez tous être des disciples :hugs:

ouroboros

C’est un outil ou un jouet jusqu’à ce qu’il ne le soit plus :man_shrugging:

3 « J'aime »

Une blague amusante — mais dans le monde réel, la majorité des bots ne suivent pas les règles de robots.txt. C’est juste une suggestion, pas une sorte de pare-feu.

5 « J'aime »

robots.txt sont des instructions destinées aux robots eux-mêmes.
Cela repose sur l’hypothèse qu’ils les suivront. Rien ne dit que ce sera le cas « à coup sûr ».

Vous pouvez bloquer les agents utilisateurs au niveau de votre serveur Web. Le plus souvent, NGINX est utilisé avec Discourse.
Ici, votre serveur Web ne servira aucun contenu à ces agents utilisateurs. Cela se fait en ajoutant quelques lignes au fichier de configuration NGINX de votre site Web. Faites une recherche sur le Web pour nginx block user agent ou une recherche similaire.

C’est « à coup sûr », si le robot d’exploration affiche un agent utilisateur honnête.

3 « J'aime »

Ce qui n’est décidément pas « à coup sûr ». :slight_smile:

2 « J'aime »

Il bloque à coup sûr les agents utilisateurs que vous souhaitez bloquer :+1:
(EDIT :100: % clair : En utilisant NGINX comme présenté ci-dessus et non en se contentant de robots.txt)

Ce n’est pas une solution sûre pour l’ensemble du problème si vous avez affaire à des acteurs malveillants qui ne s’identifient pas correctement. Mais je suppose que vous l’aviez parfaitement compris.

3 « J'aime »

Cela commence à devenir un peu ennuyeux… mais non. Il existe une multitude de situations où même Google ne respecte pas robots.txt.

C’est toujours une suggestion et personne ne devrait jamais s’y fier.

OK, nous pensons la même chose.

Je vois deux réponses qui m’ont vraiment effrayé et je ne veux pas payer, mais tôt ou tard, cela pourrait devenir obligatoire pour le travail.

(Je n’ai pas donné mon numéro de carte de crédit et j’utilise toujours des choses temporaires, au moins pour rester un peu hors des radars)

Mais les gens paient et ont fait un bond de 4 et 10 fois, puis 100 fois, 24 dollars par jour. Je travaille directement sur les marchés et c’est surréaliste.



Je n’utilise généralement pas cet appareil pour naviguer sur le web (choisir des captchas pour quelques grandes entreprises) car je me sens plus en sécurité et plus privé en naviguant sous Linux. Je soupçonne que quelqu’un pourrait penser de la même manière et je respecte si ce n’est pas votre cas.

L’open-source est aussi une sorte de contrôle, cela peut sembler un peu névrotique ou autre, mais je préfère les conversations humaines dans notre communauté et nous discutons des limites et peut-être utilisons-nous des méthodes pour bloquer quelque chose dont personne ne sait où cela peut s’arrêter.

L’hallucination a été injectée, les gens se clonent eux-mêmes. Cela pourrait casser l’information et propager beaucoup de contrôle en commun.

Peut-être sommes-nous dans un bon moment pour discuter des limites, des valeurs, de la vie privée. Pas pour censurer, porter plainte ou éviter une bonne discussion.

Si nous sommes d’accord sur ce sujet, je devrais partager mes points et mes recherches approfondies sur mes points non solides mais réels.

L’IA sans OpenAI (pas ouverte) pourrait-elle être un outil possible et meilleur pour les communautés ?

S’il vous plaît, déplacez si vous considérez que c’est hors sujet (OP), ou fusionnez si vous le souhaitez.

Je ne sais pas si ce concept pourrait être adapté pour un forum, mais j’exécute ce code dans mon fichier .htaccess sur mon blog.

RewriteCond %{HTTP_USER_AGENT} ^.*(aolbuild|baidu|bingbot|bingpreview|msnbot|duckduckgo|mediapartners-google|googlebot|Googlebot|adsbot-google|teoma|slurp|yandex|Baiduspider|facebookexternalhit|applebot|FeedFetcher-Google).*$ [NC]	
RewriteRule ^/?REDIRECT-THIS-URL?$\t/TO-THIS-URL\t[L,R=301,NC]

L’idée ici est de ne rediriger que ces user agents qui visitent X page. Dans mon cas, je redirige les user agents ci-dessus qui visitent les articles sur l’actualité, tout en continuant à rendre mon contenu biblique disponible pour tout le monde. J’ai fait cela à des fins de référencement, ce qui a fait une différence, peut-être y a-t-il un moyen d’utiliser quelque chose comme cela pour bloquer un bot d’IA ?

Le problème avec mon code, c’est que pour chaque URL, vous avez besoin d’une autre ligne de code.

2 « J'aime »

Bien sûr. C’est une solution où votre serveur web traite certains agents utilisateurs d’une manière spécifique. C’est à peu près la même chose que ce que j’ai décrit ci-dessus. Cela fonctionne tant que le bot s’identifie avec un agent utilisateur correct.

1 « J'aime »

Pour rebondir sur ce sujet, quelqu’un sait-il si l’agent utilisateur de ChatGPT reçoit la version Crawler ? J’en doute… peut-être que cela devrait être ajouté à la liste des « crawlers ».