| | | |
|:information_source: | Résumé | Ajouter des liens cachés au contenu qui peuvent empoisonner les robots d’exploration Web qui ne sont pas coopératifs.|
|:hammer_and_wrench: | Lien du dépôt | \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e|\n|:open_book: | Guide d’installation | Comment installer des plugins dans Discourse|\n\n### Fonctionnalités\n\nÀ chaque page générée, il ajoutera des liens vers des pages contenant du contenu empoisonné. Si un mauvais robot d’exploration Web consomme ce contenu et l’utilise pour entraîner un LLM, cela affectera négativement le modèle résultant.\n\nCes liens sont cachés aux utilisateurs, ils sont marqués avec rel=\"nofollow\" et par défaut, le robots.txt indiquera aux robots d’exploration de ne pas consommer ce contenu. Les liens cachés ne sont ajoutés que pour les requêtes non authentifiées.\n\nLe plugin utilise par défaut le contenu empoisonné de RNSAFFN. Consultez cette page pour plus d’informations. Vous pouvez modifier la source de poison dans les paramètres.\n\nLe contenu empoisonné est servi à partir de pages avec des URL telles que /dpf/\u003csome-random-slug\u003e/\u003cid\u003e. Avec la configuration par défaut, vous pourriez créer une règle fail2ban sur ce chemin pour les adresses IP qui demandent des pages à partir de /dpf/ quelques fois pour repousser les mauvais robots d’exploration.\n\n### Configuration\n\nIl vous suffit d’installer et d’activer le plugin pour qu’il commence à fonctionner en arrière-plan. Vous pouvez ajuster certains paramètres supplémentaires.\n\n### Paramètres\n\nInclure un tableau des paramètres et des descriptions des paramètres\n\n| Nom | Description |\n|----|----|\n| poison_fountain_source | Le site Web qui génère le contenu qui sera servi à partir des pages empoisonnées. |\n| poison_fountain_textual_only | N’accepter que le contenu textuel de la source de poison. Cela empêchera de servir du contenu binaire. |\n| poison_fountain_force_plain_text | Servir toujours le contenu en tant que text/plain même si la source indiquait quelque chose comme, comme HTML. |\n| poison_fountain_update_robots_txt | Activé par défaut, cela ajoutera le contenu empoisonné à la liste d’exclusion. Les robots d’exploration qui respectent robots.txt ignoreraient complètement le contenu empoisonné. |\n| poison_fountain_cache_hours | Heures de mise en cache du contenu avant de récupérer un nouveau contenu. Maximum de 24 heures. |\n| poison_fountain_entries | Nombre d’entrées empoisonnées à conserver |\n| poison_fountain_link_count | Nombre de liens à ajouter aux pages HTML générées |\n\nCe projet n’est pas affilié à RNSAFFN. Il fournit une intégration avec leur service. Cette intégration peut être configurée pour utiliser un autre service fonctionnant de manière similaire.\n\nVous devez réaliser qu’en utilisant ce plugin, vous ferez confiance au contenu généré par la fontaine à poison utilisée, et que vous le transmettez. Par défaut, ce plugin essaiera de rendre ce contenu « plutôt inoffensif », en servant uniquement du contenu textuel en texte brut."
8 « J'aime »
J’aime cette idée. Merci de partager.
Voici le fichier robots.txt que cludflare utilise (à ajouter au vôtre) (Je l’ai également mis ci-dessous)
Au cas où quelqu’un serait intéressé par ce genre de choses ![]()
# En condition d'accès à ce site web, vous acceptez de respecter les signaux de contenu suivants :
# (a) Si un Content-Signal = yes, vous pouvez collecter le contenu pour l'usage correspondant.
# (b) Si un Content-Signal = no, vous ne pouvez pas collecter le contenu pour l'usage correspondant.
# (c) Si l'opérateur du site web n'inclut pas de Content-Signal pour un usage correspondant, l'opérateur du site web ne donne ni ne restreint la permission via Content-Signal concernant l'usage correspondant.
# Les signaux de contenu et leurs significations sont :
# search: construction d'un index de recherche et fourniture de résultats de recherche (par exemple, retour de liens hypertextes et de courts extraits du contenu de votre site web). La recherche n'inclut pas la fourniture de résumés de recherche générés par l'IA.
# ai-input: entrée de contenu dans un ou plusieurs modèles d'IA (par exemple, génération augmentée par récupération, ancrage, ou autre prise en temps réel de contenu pour des réponses de recherche d'IA générative).
# ai-train: entraînement ou réglage fin (fine-tuning) de modèles d'IA.
# TOUTES LES RESTRICTIONS EXPRIMÉES PAR LES SIGNAUX DE CONTENU SONT DES RÉSERVATIONS EXPRESSES DE DROITS EN VERTU DE L'ARTICLE 4 DE LA DIRECTIVE DE L'UNION EUROPÉENNE 2019/790 SUR LE DROIT D'AUTEUR ET LES DROITS CONNEXES DANS LE MARCHÉ UNIQUE NUMÉRIQUE.
# BEGIN Cloudflare Managed content
User-agent: *
Content-Signal: search=yes,ai-train=no
Allow: /
User-agent: Amazonbot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: meta-externalagent
Disallow: /
# END Cloudflare Managed Content
User-agent: *
Disallow: /lp
Disallow: /feedback
Disallow: /langtest
Sitemap: https://www.crawlstop.com/sitemap.xml