Comment empêcher le contenu de la communauté d'être utilisé pour entraîner des LLM comme ChatGPT ?

Oui, c’est un point rhétorique très large et je pense que vous avez manqué l’implication.

Je vais me lancer et dire que votre processus logique a été mené à une époque antérieure à l’itération actuelle de l’IA/ChatGPT, et c’était l’ancienne norme qui dictait l’espace.

Les gens dans le même espace aujourd’hui ont ce nouveau paradigme accrocheur qui change la donne (l’IA) qui semble promettre un facteur X apparemment infini en termes de potentiel et de conséquences, dans une mesure égale.

Toute activité et toutes les hypothèses antérieures qui ont informé les décisions passées deviennent nulles et non avenues si l’IA y a eu accès, et il y a suffisamment d’éléments trouvés anecdotiquement en ligne pour suggérer que le grattage de données pour alimenter l’IA se déroule depuis 3, peut-être 5 ans ou plus, dans le cas de DeepMind, peut-être dès 2014 lorsque Google l’a acheté (peut-être qu’un examen médico-légal d’échantillons de journaux pourrait le prouver, ou peut-être a-t-il été occulté pour l’empêcher). Si vous considérez cela comme relativement vrai, vous pouvez voir que le problème est frappant en termes de délais techniques.

Tout le contenu peut avoir été gratté et il est trop tard, mais j’ai pris cela en compte dans mes préoccupations et mes représentations, et je ne le note ici que parce que, comme je l’ai dit, il n’y a pas de solution de machine à remonter le temps ici, seulement le pouvoir de la circonspection pour informer les solutions présentes et futures.

Désolé, je ne comprends rien à cela.

L’implication de la question était qu’il existe désormais un nouveau choix convaincant en ville, considéré comme une solution par-dessus toutes les autres pour de nombreux besoins, à savoir l’IA (technologie basée sur ChatGPT).

Tu dis que personne ne choisirait de créer un forum parce que les LLM offrent aux gens tout ce qu’ils veulent des forums ? (Ce n’est pas le sujet de ce fil de discussion, d’ailleurs.)

(Si tu veux que les gens fassent quelque chose pour toi, je pense que tu dois être clair sur ce que tu penses être le problème, et sur ce que tu penses qu’ils peuvent faire pour toi. Je vois que tu t’en soucies profondément, mais je ne sais pas ce que tu veux. Comme tout le monde, j’ai un temps et une énergie limités, donc je ne vais pas travailler dur pour comprendre tes pensées.)

Modifier pour ajouter :

le résumé actuel de ce fil de discussion par l'IA, pour la postérité

Une discussion de forum sur la manière d’empêcher que le contenu communautaire soit utilisé pour entraîner des modèles de langage comme ChatGPT se concentre sur la confidentialité du contenu en exigeant une connexion, en bloquant les scrapers via robots.txt ou le réglage Discourse des user agents de robots bloqués, ou en retirant le site d’Internet ouvert. Si certains s’opposent à l’utilisation de données publiques et estiment que c’est une partie inévitable du progrès, d’autres soutiennent que les créateurs de contenu devraient avoir plus de contrôle sur la manière dont leur travail est utilisé. La discussion explore les questions philosophiques autour de la propriété de l’information et de la créativité, ainsi que des conseils pratiques pour atténuer l’utilisation des données par les systèmes d’IA.

4 « J'aime »

Soudain, il y a une nouvelle raison de ne pas choisir les anciennes méthodes à laquelle il est difficile de résister.


Je ne suis pas l’OP, mais je compatisse encore plus avec l’OP maintenant.

  1. Prendre l’OP au sérieux, ce que personne ne faisait,

et

  1. La raison étant que, avec tous les événements de ce type, ils ont des répercussions profondément positives et négatives, et je ne pense pas ou ne détecte aucune reconnaissance sérieuse des inconvénients, et un biais en faveur des avantages perçus, et donc il n’y a aucune activité pour évaluer et atténuer, c’est-à-dire soutenir ceux qui sont affectés par, mais au niveau de la plateforme.

Encore une fois, je ne suis pas l’OP, mais le problème de l’OP est le problème de tous les discours (qui sont publics). C’est aussi une menace existentielle systémique pour le net, elle est agnostique à la plateforme, ou

ce n’est rien de plus que des “nouveaux jouets cool” avec lesquels jouer de manière pragmatique.

Ce dernier n’est pas sérieux dans le contexte. C’est volontairement aveugle. Personnellement, je trouve cela irresponsable. Ce qui rend le paradigme de l’IA encore plus dangereux.

Les sujets uniques ne résoudront pas cela, c’est le leadership. J’ai commencé par @ sam et @ codinghorror et c’est à ce moment-là que tout le cataclysme de la modération a commencé, fait une fois, pas abusé, mais vous savez, d’autres personnes pensent mieux, et savent mieux, attendez que l’IA s’y accroche vraiment. :melting_face:

En résumé : ce problème doit être pris très au sérieux.

Il pourrait donc avoir sa propre catégorie. C’est aussi énorme.

Jusqu’à présent, hormis la solution qui n’est pas une solution mais une rupture, si la stratégie consiste à verrouiller la porte avec - login_required (paramètre), alors dans ce scénario, pour atténuer les effets négatifs du trafic, si vous dépendez du trafic de recherche, il faut avoir quelque chose à voir mais pas tout.

Frontend WP / Site Discourse avec login_required
(plus de travail, plus de coûts d’hébergement, de support, etc.)

Les éléments qui aideraient également mais qui ne sont pas conçus exactement pour ce problème :

Pages Publiées si elles sont développées avec une page de liste dédiée, certaines options de configuration, pourraient servir de page de destination de transition où les utilisateurs peuvent voir du contenu public avec une invite d’inscription pour en lire plus.

– permettre la liste des pages publiées sur leur propre page /pub (faire la page d’accueil)
– permettre la liste des pages publiées sur la page login_require
– permettre une catégorie personnalisée ou les plus récentes sur la page login_required

Je n’ai découvert Pages Publiées il y a quelques jours qu’une fonctionnalité en essayant de trouver une solution à ce problème, et je me souviens que même avant l’énigme de l’IA, des utilisateurs précédents avaient demandé une fonctionnalité de liste similaire pour les pages publiées.

Un traitement plus configurable et dédié des pages publiées est, à mon avis, plus préférable qu’un ajout complet au frontend WP, si l’on a besoin de résoudre un point de connexion public.

Lister uniquement le premier message du sujet

Afficher uniquement le premier message de chaque sujet et exiger une connexion pour lire les commentaires. J’ai vu des suggestions similaires au moins une fois et elles ont été rejetées, mais dans ce contexte, il faut réévaluer.

Considérez également ces suggestions comme une liste incomplète, simplement des pansements potentiels pour une partie du problème, et non pour la totalité.


En attendant, je vais revenir à terroriser ce sujet avec plein d’émotions :slight_smile: How are we all feeling about ChatGPT and other LLMs and how they'll impact forums?

1 « J'aime »

D’après votre dernière réponse, je vois que nous arrivons plus ou moins à la même conclusion, à savoir traiter le problème en combinant contenu public et privé. J’ai écrit le post ci-dessous avant de lire votre réponse. Je vais le publier quand même pour essayer de défendre ce point de vue.

Je prends l’OP au sérieux, à la fois parce qu’il pose une question légitime, et parce que je partage peut-être une préoccupation avec son auteur quant à la manière dont les LLM vont affecter Internet. Si je comprends bien vos préoccupations, je pense que vous avez raison de dire que nous assistons à un changement fondamental dans le fonctionnement d’Internet : au lieu que les gens visitent directement les sites, les LLM vont devenir l’interface de référence pour interagir avec la partie publique d’Internet. Il y a toutes sortes d’implications à cela qui ne peuvent probablement pas être traitées utilement ici.

Ce qui peut être abordé ici, c’est la question de savoir comment empêcher que le contenu de Discourse ne soit utilisé pour entraîner des LLM. Discourse offre plusieurs approches possibles.

La première approche est faible : garder le site public et essayer de bloquer tous les agents utilisateurs utilisés pour le scraping de données grâce au paramètre de site blocked crawler user agents. En plus de cela, vous pourriez vous engager dans des litiges contre les entreprises qui font du scraping de données.

L’approche la plus solide est de rendre tout votre site, ou des parties de celui-ci, privé. Cela peut être fait avec le paramètre de site login required (connexion requise), ou avec les paramètres de sécurité des catégories.

La principale objection que je vois à l’approche ci-dessus est que les gens veulent que leurs sites soient découvrables par les moteurs de recherche. Je pense qu’il existe des moyens de résoudre ce problème. Le plus simple serait d’avoir un blog public optimisé pour le SEO, associé à un forum Discourse privé. Une solution plus complexe serait que Discourse fournisse des fonctionnalités permettant qu’une partie de l’OP d’un sujet soit publique, tandis que le reste du sujet ne serait accessible qu’aux membres d’un groupe Discourse. Ce serait similaire à la façon dont des services comme Substack traitent le contenu réservé aux abonnés payants : ils affichent du contenu accessible aux utilisateurs anonymes et aux robots d’exploration, puis affichent un appel à l’action pour s’inscrire :

Je pense donc qu’en plus de ma préoccupation quant à l’impact des LLM sur Internet, je vois une opportunité d’examiner de nouvelles façons de financer les créateurs de contenu.

7 « J'aime »

Où se trouve ce paramètre ?

2 « J'aime »

Votre question est « pourquoi quelqu’un produirait-il quelque chose qui pourrait être mis sur l’internet public ? »

Lorsque vous posez la question sur l’internet public, personne qui partage votre point de vue ne peut répondre à votre question.

6 « J'aime »

Ce sujet est épuisant, le résumé basé sur l’IA couvre le sujet très bien, faites défiler vers le haut et cliquez dessus

Fermeture pour les 3 prochains mois

12 « J'aime »

Ce sujet a été automatiquement ouvert après 90 jours.