L'audience des forums évolue. Certains de vos lecteurs ne sont plus réellement des lecteurs — du moins pas au sens traditionnel. Ce sont des agents qui lisent pour le compte de quelqu'un, résumant votre contenu en une réponse destinée à une personne qui ne cliquera peut-être jamais sur le lien ni ne deviendra un véritable membre. Que vous gériez une communauté de support pour développeurs, un forum client ou un club de fans, vos connaissances sont actuellement intégrées dans les réponses générées par l'IA.
Question sincère : pourquoi devrais-je laisser les robots d’exploration IA inonder mon serveur ? Bien sûr, l’article précise que le choix m’appartiendra toujours, mais, du point de vue commercial et en prenant Reddit comme exemple de la manière dont ils gèrent le scraping par IA, quels seraient les avantages ici ?
Récemment, j’ai vu que Google allait créer des pages personnalisées en fonction de l’historique de ses utilisateurs, c’est-à-dire moins de clics pour les webmasters et plus d’argent pour Alphabet. Alors, encore une fois, quel est l’intérêt ?
Actuellement, j’autorise les moteurs de recherche et les services de mise en cache comme Wayback Machine à lire et à mettre en cache mon contenu, bien que je ne puisse voir là-dedans que la fourniture du contenu de mes utilisateurs à des fins de monétisation par Alphabet et autres, sans que ma communauté n’en tire aucun bénéfice, sans compter les questions juridiques comme la LGPD dans mon pays ou le RGPD en Europe.
Sans doute l’une des meilleures fonctionnalités de Discourse.
Je frémis à chaque fois que je cherche une URL qui renvoie uniquement des données sur un autre site web, pour découvrir qu’il n’en existe aucune.
Ce serait formidable si vous pouviez toujours inclure des liens vers vos sources pour des affirmations de ce type. Cela aiderait les lecteurs à vérifier les données
Cela dépend de l’objectif de votre forum : s’il s’agit par exemple d’un forum de marque ou de support, votre but pourrait être de fournir une réponse aux utilisateurs aussi rapidement que possible. Si le contenu est intégré à l’entraînement de l’IA, cela pourrait s’avérer bénéfique. Espérons que, s’il s’agit vraiment d’un problème non résolu, les gens trouveront quand même votre site pour en parler, mais cela reste un défi s’ils se tournent d’abord vers l’IA.
Dans un contexte plus social, les scrapers d’IA sont presque totalement inutiles, car vous souhaitez que les membres de votre communauté interagissent entre eux. Ce pourrait être un bon cas de figure pour tenter de les bloquer complètement.
D’un point de vue professionnel, en travaillant avec l’IA et le référencement naturel (SEO), l’impact et l’importance de llms.txt n’ont pas encore été prouvés. Récemment, Google a déclaré ne pas l’utiliser ni le prendre en charge. Cela ne signifie pas que d’autres agents ne le feront pas. Mais c’est une nuance que je tenais à partager.
Honnêtement, je ne le fais pas. C’est mon opinion personnelle, mais les LLM ont toujours été interdits d’accès à mes sites web et le resteront. Je n’aime pas offrir gratuitement mon travail acharné, qu’il s’agisse de texte ou de code, aux scrapers, en particulier ceux d’OpenAI ou d’Anthropic.
Bien sûr, tout cela relève simplement de préférences personnelles, mais cette folie actuelle autour de l’IA prendra fin dès que les gens cesseront de permettre à ces entreprises de voler le contenu de leurs sites web. Peut-être que la dernière mise à jour de Google, tant critiquée, remettra les propriétaires de sites web à l’ordre, car ils n’auront plus aucune visite sur leur site.
Malheureusement, il n’existe aucun moyen infaillible de bloquer les robots d’extraction des LLM si le contenu de votre site est accessible au public. Beaucoup d’entre eux ignorent le fichier robots.txt et tentent même de se faire passer pour des visiteurs humains (en utilisant différents agents utilisateur et adresses IP) pour contourner les blocages. Espérons qu’une réglementation juridique puisse établir des garde-fous dans cette situation, car il semble que beaucoup de gens souhaitent pouvoir choisir si leur contenu est utilisé de cette manière ou non !