Comment empêcher le contenu de la communauté d'être utilisé pour entraîner des LLM comme ChatGPT ?

Y a-t-il un consensus sur le fait que la création d’une Catégorie, essentiellement PRIVÉE, est un moyen sûr de bloquer non seulement tous les bots, mais aussi les LLM ou appelons-les les bots IA ?

Honnêtement, d’après mon implication dans le problème dans au moins un sujet et mes recherches sur ChatGPT, Discourse et de nombreux autres logiciels, on ne prend pas la menace et les aspects destructeurs de ChatGPT au sérieux, à mon humble avis. Il faut sérieusement réfléchir à l’offre de support et de fonctionnalités pour les propriétaires de sites et les administrateurs qui ne souhaitent pas utiliser d’IA.

ChatGPT et tout ce qui lui est synonyme est l’une de ces situations où la mèche a été allumée, des deux côtés. :melting_face:

1 « J'aime »

C’est un moyen assez sûr oui.
Les acteurs complètement malveillants pourront toujours s’inscrire, bien sûr, mais cela devrait supprimer tous les robots d’exploration légitimes.

Remarque : j’ai supprimé votre commentaire où vous avez tagué quelques cofondateurs, cela semble excessif.

6 « J'aime »

Le temps nous dit que ce n’est pas excessif. Il faut se réveiller. Je vois un parti pris qui engendre un grand angle mort, c’est aussi une observation à l’échelle de l’industrie, mais à ma connaissance, Discourse ne fait pas exception.

Si la seule option est de rendre votre forum entier à nouveau privé, eh bien, le « marché » a changé non pas d’une seule manière, mais de nombreuses manières si fondamentalement qu’il doit être pris en compte à un certain niveau opérationnel.

Ce qui est excessif, c’est ChatGPT et ses effets, le mot « rapaces » ne décrit même pas la moitié de ce qui se passe, partout.

Cela sape fondamentalement chaque forum et tout le contenu créé par l’homme. Vous êtes peut-être à l’aise maintenant à jouer avec les subtilités et les hypothèses philosophiques, mais ce temps est révolu. La chose est maintenant dans la nature. Des décisions doivent être prises par tous ceux qui ont un pied dans les eaux du web.

Ce que j’ai dit est excessif (et ce que j’ai supprimé) est de relancer deux cofondateurs/PDG pour un suivi à peine 17 heures après avoir posé une question purement technique.

Vos craintes concernant les LLM sont réelles et compréhensibles, même si je ne suis pas d’accord avec elles.

7 « J'aime »

Je comprends, mais vous ne parvenez pas à saisir l’urgence, qu’une réponse à une question technique ait des résultats et des conséquences si profonds qu’ils ne sont en aucun cas techniques en termes humains.

Tant d’implications et pourtant tout le monde marche dans le sommeil, ce qui témoigne du manque de préoccupation à tous les niveaux.

Merci pour cette réponse.

Avons-nous seulement un marteau pour casser une noix, ou la noix est-elle en réalité une noix d’infini à point zéro et notre marteau est-il vraiment un fantasme de l’imagination d’une plume.

Est-ce que cela a du sens ? :wink:

Je pense que vous comprenez.

Si votre site autorise les utilisateurs anonymes à lire des informations, vous n’avez aucun contrôle sur qui obtient ces informations ni sur ce qu’ils en feront. Si je comprends bien, Google vient de modifier sa politique pour dire que tout ce qu’il peut lire, il peut l’utiliser pour son IA.

Si votre site autorise les utilisateurs connectés à lire votre site, vous n’avez aucun contrôle sur ce que ces utilisateurs en feront.

Si votre site autorise les utilisateurs à se connecter, vous ne savez pas nécessairement que la personne qui utilise les identifiants est la personne qui a créé le compte. Si vous voulez être sûr que personne ne peut utiliser vos données dans une IA, vous pouvez simplement débrancher sa connexion réseau.

6 « J'aime »

Il y a un petit contrôle lors de l’utilisation d’un proxy inverse - jusqu’à ce qu’ils changent ou utilisent un faux agent utilisateur (ou qu’ils utilisent largement des adresses IP, mais cette voie est difficile et rocailleuse).

Faites-moi savoir si vous parvenez à développer un livre magique que les yeux humains peuvent voir mais qu’aucune caméra sur Terre ne peut photographier.

Très curieux de cette technologie magique.

Quant au forum que vous hébergez sur la plateforme Discourse, votre forum / vos règles. Certaines règles peuvent être appliquées automatiquement, d’autres non (par exemple, les personnes aux yeux bleus ne peuvent pas lire ce forum).

7 « J'aime »

Personne ne prend cela au sérieux car je pense que personne ne veut admettre et saisir la véritable ampleur de cet événement, puis devoir réellement essayer de faire quelque chose à ce sujet dans son domaine de contrôle, et il est plus facile de rejoindre la course vers la fin, et d’intégrer l’IA dans leurs logiciels, pensant qu’ils agissent comme le marché l’attend et sont à la pointe, étant vitaux. C’est là que les dernières décennies d’un relativisme moral excessif ayant eu carte blanche à tous les niveaux permettent le grand déclin des choses et la technologie le fait à la vitesse de l’éclair, car c’est comme si ;

tout le monde avait oublié la raison pour laquelle il est là.

Je vais ralentir un peu.

Nous entendons vos préoccupations, nous ne les partageons tout simplement pas et ce n’est pas grave. Nous pouvons convenir d’être en désaccord. Nous prenons des décisions éclairées. Personne ne vous les impose. :slight_smile:

8 « J'aime »

@satonotdead exactement

OpenAI a utilisé quelques ensembles de données pour entraîner ses modèles. L’ensemble de données qui semble le plus susceptible d’inclure du contenu Discourse est une version filtrée de l’ensemble de données Common Crawl. Voir la section 2.2 de ce document pour plus de détails : https://arxiv.org/pdf/2005.14165.pdf. Common Crawl utilise la chaîne d’agent utilisateur CCBot/2.0 lors du parcours d’un site.

Si vous souhaitez que votre site Discourse reste accessible au public, mais que vous empêchiez son contenu d’être ajouté à l’ensemble de données Common Crawl à l’avenir, vous pouvez ajouter CCBot au paramètre blocked crawler user agents de votre site Discourse. Notez qu’il pourrait y avoir un inconvénient à bloquer l’agent utilisateur Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content) :

De nombreux ensembles de données, y compris Common Crawl, pourraient être utilisés par des entreprises qui filtrent et catégorisent les URL afin de créer des listes de sites Web à cibler avec de la publicité.

L’utilisation par Discourse du paramètre blocked crawler user agents se trouve ici : discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Notez que Common Crawl respecte les règles du fichier robots.txt, il pourrait donc également être bloqué en ajoutant la règle suivante au fichier :

User-agent: CCBot
Disallow: /

Les plugins ChatGPT utilisent l’agent utilisateur ChatGPT-User lorsqu’ils effectuent des requêtes au nom des utilisateurs. Cet agent utilisateur n’est pas utilisé pour parcourir le Web afin de créer des ensembles de données d’entraînement : https://platform.openai.com/docs/plugins/bot. Cet agent utilisateur pourrait également être bloqué en l’ajoutant au paramètre blocked crawler user agents (ou en ajoutant une règle Disallow au fichier robots.txt).

Comme d’autres l’ont noté, le moyen le plus fiable d’empêcher votre site d’être utilisé pour entraîner des LLM serait d’empêcher l’accès anonyme au site en activant le paramètre de site login required. Pour renforcer davantage la sécurité du site, des mesures pourraient être prises pour augmenter la probabilité que les utilisateurs de votre site soient humains et non des bots. Une approche possible serait d’intégrer un service comme Gitcoin Passport au système d’authentification du site. Je crois qu’un plugin Gitcoin Passport open source pour Discourse sera bientôt développé.

Il peut y avoir d’autres moyens moins techniques d’augmenter la probabilité que les utilisateurs du site soient humains. Par exemple, le site pourrait être configuré sur invite only et des mesures pourraient être prises pour s’assurer que vous n’invitez que des utilisateurs dont vous avez des raisons de croire qu’ils sont humains sur le site.

Je trouve la philosophie derrière tout cela super intéressante, mais je n’approfondirai pas dans ce sujet.

15 « J'aime »

Je m’oppose fermement à la modération continue de mes tentatives d’aborder ce sujet de manière approfondie et sérieuse. Le délai d’attente est une blague, devoir attendre une heure à chaque fois.

Il y a une tonne de messages errants qui restent de la part de nombreux utilisateurs. Pas de cohérence, des biais, hmm, eh bien, c’est ainsi que cela semble pour cet utilisateur jusqu’à présent et je ne le prends pas personnellement, mais la modération gériatrique étouffe, c’est le moins qu’on puisse dire.

J’essaie juste d’élever cette situation des plus sérieuses et flagrantes, et enfin nous obtenons un excellent et sérieux message de @simon.

Superbe et en plein dans le mille, exactement ce que l’OP et les autres avaient besoin d’entendre en premier. De nombreuses options sont enfouies dans la section d’administration étendue, et je n’avais pas remarqué cette fonctionnalité/option auparavant. Maintenant, je peux la tester, ce serait bien si elle pouvait avoir plus d’informations personnalisées que la carte par défaut. Peut-être que les gestionnaires de texte personnalisés s’en chargent, quelqu’un sait-il ?

Merci beaucoup. :+1:

Si cet article dit vrai

Vous devrez retirer votre site de l’internet public / bloquer Google / activer login_required.

7 « J'aime »

Il convient de noter qu’il n’y a absolument rien qui oblige un robot d’exploration à respecter robots.txt et qu’il est trivial de falsifier un agent utilisateur. Aucune loi ne régit ces choses. Aucune urgence ni aucun sérieux ne changera cela. Si vous craignez que vos données ne soient utilisées, tout ce que vous pouvez faire est de rendre votre site privé et d’attendre que diverses procédures judiciaires concernant les données d’entraînement se règlent.

11 « J'aime »

Je m’attends à ce que les sites qui dépendent de la publicité voient leurs revenus chuter et nous commencerons à voir beaucoup plus de contenu derrière des paywalls. La qualité de la partie libre et ouverte d’Internet sera diluée.

Discourse pourrait en fait capitaliser sur cette tendance en mettant en place un service d’abonnement pour ses clients hébergés.

6 « J'aime »

Il existe déjà un plugin d’abonnement qui peut être disponible pour certains niveaux sur les plateformes hébergées. Les sites auto-hébergés peuvent déjà l’adopter.

Le hic avec la dissimulation de contenu est que cela affectera votre référencement, donc cela peut dépendre de votre entonnoir de nouveaux utilisateurs.

Personnellement, je compte sur la recherche pour attirer de nouveaux utilisateurs, donc je ne mets qu’un peu de contenu derrière un mur de compte.

Pour de nombreux sites, vous avez encore besoin d’être découvert !

2 « J'aime »

Vous semblez avoir deux préoccupations liées, @agemo, l’une étant l’utilisation de l’IA dans les logiciels, et l’autre étant que les interactions des gens ordinaires sur le Web peuvent être utilisées pour entraîner l’IA. Vous êtes très préoccupé par ces choses, et vous ne voulez pas qu’elles se produisent.

Je peux comprendre cela. Je m’attends à ce que ces préoccupations soient partagées par beaucoup.

Laissez-moi vous dire qu’il y a beaucoup de choses dans le monde qui me préoccupent, et que j’aimerais qu’elles soient différentes - mais je ne les aborde pas ici parce qu’elles ne sont pas réalisables par les personnes ici, ou par Discourse en tant qu’offre. Si je continuais à les aborder, cela pourrait être ennuyeux et je pourrais me retrouver modéré.

Peut-être avez-vous l’impression de ne pas être entendu. Mais je pense que ce qui se passe réellement dans ce fil de discussion, c’est que les autres participants pensent que vos préoccupations ne sont pas réalisables, ni ici ni par eux. Peut-être que quelque chose peut être fait, mais cela ne peut pas être fait par des individus ici. Peut-être que la réponse est un mouvement de masse, une campagne ou une révolution - mais je pense qu’il est juste que les modérateurs ici estiment que de telles choses sont hors sujet ici.

3 « J'aime »

C’est arrivé. La chose que nous ne pouvons pas changer. L’IA est maintenant libérée et c’est l’événement. Je n’ai jamais suggéré que nous pouvions remonter le temps.

Les modérateurs pensaient avoir compris ce sujet, mais ils ne l’ont pas fait, et pourtant ils continuent de modérer mes contributions. Je suis fatigué de parler de la modération, au lieu des solutions, mais ils continuent de le faire, ou d’autres utilisateurs aussi, peut-être qu’ils ne voient pas la valeur ou sont trop à l’aise.

La réalité est que depuis mes interventions pour essayer de recentrer ce sujet sur des solutions, malgré la modération maladroite, il y a eu quelques résultats.

Vous pourriez penser que vous ne pouvez rien faire, mais en regardant la situation et en reconnaissant que :
a) c’est sérieux
b) c’est urgent
c) cela nécessite de la concentration

C’est un début, et que vous avez le contrôle sur votre réaction, mais pas sur l’événement qui s’est produit et qui est maintenant dans le passé et affecte le présent au quotidien dans un avenir prévisible.

Il n’y a pas d’autre solution proposée que d’utiliser grossièrement des solutions dérivées d’autres problèmes, et cela brise la proposition, car l’événement IA oblige les gens à adopter des positions qui brisent tous leurs efforts jusqu’au point de l’événement.

Il est très naturel de ne pas vouloir faire partie de quelque chose qui représente une menace directe et qui exploitera votre contenu en concurrence directe avec tous vos efforts jusqu’à ce point, pour commencer, mais cela ne s’arrête pas là.

Je vais résumer le tout avec une simple question rhétorique (vous pouvez argumenter si elle est rhétorique ou non, mais vous devrez reconnaître l’IA).

Pourquoi quelqu’un envisagerait-il même de déployer une instance de Discourse (ou similaire) maintenant ?

Il y a tellement de préoccupations à ce sujet, parfois un sujet (OP) exemplifie tout l’univers des conséquences du problème, et celui-ci en est certainement un. Il ne devrait pas être si étroit, surtout quand Discourse n’a pas de vraie solution à offrir, alors le sujet par la nature même dans le contexte est très ouvert ou c’est “désolé puisqu’il n’y a pas de solution pour ce sujet, le sujet est maintenant clos”, choisissez.

Ouvrez-le ou fermez-le.

Comprenons-nous ?

C’est là le point. S’il y a une reconnaissance qu’il n’y a pas de volonté d’aborder le problème, alors faites-le, sinon ce sujet reste et doit être très large, c’est le niveau d’atténuation de la modération requis sur ce sujet, car c’est un territoire vierge.

S’il y avait par hasard une ou deux cases à cocher qui règlent le problème dans les paramètres, nous rentrons tous à la maison, mais il n’y en a vraiment pas, pas encore. Il peut y avoir des solutions temporaires, mais elles ne sont pas dans le domaine du “RÉSOLU”, sur cela je pense que tout le monde est d’accord.

Puisqu’aucune solution n’a été développée en réponse directe pour répondre aux préoccupations de l’OP et à la question de l’IA et de la manière dont un administrateur doit la gérer, mes points tiennent.

S’il y en a, veuillez les indiquer, les poster ici ou la solution en cours de développement ou quoi que ce soit. Comprenons-nous ?

Là réside une responsabilité, celle d’un développeur, d’un utilisateur, et la relation existante qui fait que tout fonctionne. Donc nous en discutons. Encore et encore si nécessaire.

Ce que je vois, c’est une absence totale de reconnaissance de la façon dont cela brise jusqu’aux derniers posts depuis que l’OP a commencé en mai et que j’ai célébrés mais que j’ai été modéré pour cela. C’est une blague. L’IA est en train de casser le net, encore une fois, pourquoi s’embêter à mettre en place un Discourse ou une plateforme similaire ? Si nous ne pouvons pas en discuter de manière sérieuse, authentique et robuste qui réponde aux exigences du sujet, alors vous avez votre réponse.

Le marché évolue, tout l’argent, les regards et la frénésie tombent à la renverse dans les poches d’OpenAI & Co. Je vois des développeurs partout ici, comme partout ailleurs, qui choisissent l’adoption et l’intégration complètes de l’IA sans aucune circonspection, ZÉRO !

C’est pourquoi un tel OP reste accablant et frustrant. Casser votre Discourse est la seule solution infaillible. Ce qui n’est pas une solution. C’est pratiquement un game over.

Mon analogie sur la façon dont l’IA est perçue par les développeurs, rhétoriquement : presque tous semblent occupés à construire toutes sortes de seaux cool pour collecter la lave de l’éruption du volcan (l’éruption étant l’événement) et la réaction de construction de seaux pour collecter la lave, la lave est un cadeau du dieu volcan, elle apporte chaleur et lumière oui, mais elle brûle aussi les choses très vite, et sans le seau vous ne pouvez pas contrôler le morceau que vous avez, mais le seau cache ce fait, il semble sûr, cool, net, pour l’instant.

Non. Ce ne serait pas correct. J’ai expliqué pourquoi les modérateurs se sont trompés et comment c’est bien plus grave qu’ils ne le pensent, et cela pourrait être de manière décevante symptomatique de la position descendante de la relation entre Discourse et l’IA… on a l’impression que c’est soit “bof” soit haussement d’épaules, mais les sentiments peuvent être erronés, alors prouvez-moi que j’ai tort avec des faits.

Certaines personnes ont compris mes points, ou du moins ont regardé plus attentivement l’OP, ont fait de meilleures contributions, pour lesquelles je suis reconnaissant car elles m’ont mené sur quelques pistes potentielles vers une solution brute à plusieurs points, toujours en cours de développement, et nécessiteraient une reconnaissance par les développeurs pour mieux correspondre aux exigences soulevées par l’IA, pour en faire une mesure temporaire réalisable, mais toujours temporaire.

Cela a été une décennie difficile pour les forums en ligne, des baisses de trafic aux revenus. Les implications de cet événement brisent ces graphiques de désarroi et pour de nombreux opérateurs, cela peut signifier rien de moins qu’un événement final de doom et ils fermeront simplement boutique.

Je veux avoir des discussions sur certains sujets, alors j’organise des forums où les gens peuvent se rencontrer et discuter de ces sujets. J’ai choisi Discourse, mais à mon avis, toute autre solution sur le web ouvert présenterait les mêmes risques et les mêmes résultats. Je veux que mes discussions soient sur le web ouvert et qu’elles apparaissent dans les résultats de recherche.

Les gens peuvent avoir des interactions sur des plateformes soucieuses de la vie privée comme Telegram et Signal, et ils le font, mais ce sont des offres différentes construites pour des raisons différentes. Il est possible que le chat Discourse offre une partie de ce que vous recherchez - en l’occurrence, cela ne m’intéresse pas.

2 « J'aime »