Fontaine empoisonnée Discourse

elmuerte · Janvier 20, 2026, 8:29

| | | |
|:information_source: | Résumé | Ajouter des liens cachés au contenu qui peuvent empoisonner les robots d’exploration Web qui ne sont pas coopératifs.|
|:hammer_and_wrench: | Lien du dépôt | \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e|\n|:open_book: | Guide d’installation | Comment installer des plugins dans Discourse|\n\n### Fonctionnalités\n\nÀ chaque page générée, il ajoutera des liens vers des pages contenant du contenu empoisonné. Si un mauvais robot d’exploration Web consomme ce contenu et l’utilise pour entraîner un LLM, cela affectera négativement le modèle résultant.\n\nCes liens sont cachés aux utilisateurs, ils sont marqués avec rel=\"nofollow\" et par défaut, le robots.txt indiquera aux robots d’exploration de ne pas consommer ce contenu. Les liens cachés ne sont ajoutés que pour les requêtes non authentifiées.\n\nLe plugin utilise par défaut le contenu empoisonné de RNSAFFN. Consultez cette page pour plus d’informations. Vous pouvez modifier la source de poison dans les paramètres.\n\nLe contenu empoisonné est servi à partir de pages avec des URL telles que /dpf/\u003csome-random-slug\u003e/\u003cid\u003e. Avec la configuration par défaut, vous pourriez créer une règle fail2ban sur ce chemin pour les adresses IP qui demandent des pages à partir de /dpf/ quelques fois pour repousser les mauvais robots d’exploration.\n\n### Configuration\n\nIl vous suffit d’installer et d’activer le plugin pour qu’il commence à fonctionner en arrière-plan. Vous pouvez ajuster certains paramètres supplémentaires.\n\n### Paramètres\n\nInclure un tableau des paramètres et des descriptions des paramètres\n\n| Nom | Description |\n|----|----|\n| poison_fountain_source | Le site Web qui génère le contenu qui sera servi à partir des pages empoisonnées. |\n| poison_fountain_textual_only | N’accepter que le contenu textuel de la source de poison. Cela empêchera de servir du contenu binaire. |\n| poison_fountain_force_plain_text | Servir toujours le contenu en tant que text/plain même si la source indiquait quelque chose comme, comme HTML. |\n| poison_fountain_update_robots_txt | Activé par défaut, cela ajoutera le contenu empoisonné à la liste d’exclusion. Les robots d’exploration qui respectent robots.txt ignoreraient complètement le contenu empoisonné. |\n| poison_fountain_cache_hours | Heures de mise en cache du contenu avant de récupérer un nouveau contenu. Maximum de 24 heures. |\n| poison_fountain_entries | Nombre d’entrées empoisonnées à conserver |\n| poison_fountain_link_count | Nombre de liens à ajouter aux pages HTML générées |\n\nCe projet n’est pas affilié à RNSAFFN. Il fournit une intégration avec leur service. Cette intégration peut être configurée pour utiliser un autre service fonctionnant de manière similaire.\n\nVous devez réaliser qu’en utilisant ce plugin, vous ferez confiance au contenu généré par la fontaine à poison utilisée, et que vous le transmettez. Par défaut, ce plugin essaiera de rendre ce contenu « plutôt inoffensif », en servant uniquement du contenu textuel en texte brut."

beeburrt · Mars 18, 2026, 10:40

J’aime cette idée. Merci de partager.

Voici le fichier robots.txt que cludflare utilise (à ajouter au vôtre) (Je l’ai également mis ci-dessous)

Au cas où quelqu’un serait intéressé par ce genre de choses

# En condition d'accès à ce site web, vous acceptez de respecter les signaux de contenu suivants :

# (a)  Si un Content-Signal = yes, vous pouvez collecter le contenu pour l'usage correspondant.
# (b)  Si un Content-Signal = no, vous ne pouvez pas collecter le contenu pour l'usage correspondant.
# (c)  Si l'opérateur du site web n'inclut pas de Content-Signal pour un usage correspondant, l'opérateur du site web ne donne ni ne restreint la permission via Content-Signal concernant l'usage correspondant.

# Les signaux de contenu et leurs significations sont :

# search:   construction d'un index de recherche et fourniture de résultats de recherche (par exemple, retour de liens hypertextes et de courts extraits du contenu de votre site web). La recherche n'inclut pas la fourniture de résumés de recherche générés par l'IA.
# ai-input: entrée de contenu dans un ou plusieurs modèles d'IA (par exemple, génération augmentée par récupération, ancrage, ou autre prise en temps réel de contenu pour des réponses de recherche d'IA générative).
# ai-train: entraînement ou réglage fin (fine-tuning) de modèles d'IA.

# TOUTES LES RESTRICTIONS EXPRIMÉES PAR LES SIGNAUX DE CONTENU SONT DES RÉSERVATIONS EXPRESSES DE DROITS EN VERTU DE L'ARTICLE 4 DE LA DIRECTIVE DE L'UNION EUROPÉENNE 2019/790 SUR LE DROIT D'AUTEUR ET LES DROITS CONNEXES DANS LE MARCHÉ UNIQUE NUMÉRIQUE.

# BEGIN Cloudflare Managed content

User-agent: *
Content-Signal: search=yes,ai-train=no
Allow: /

User-agent: Amazonbot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: meta-externalagent
Disallow: /

# END Cloudflare Managed Content

User-agent: *
Disallow: /lp
Disallow: /feedback
Disallow: /langtest


Sitemap: https://www.crawlstop.com/sitemap.xml

Sujet		Réponses	Vues
Preventing malicious linking Feature	34	4941	Décembre 24, 2017
Add more prohibited links to screened URLs Support	1	627	Février 19, 2019
Add to robots.txt some CloudFlare path to avoid crawlers inspect incorrectly Development	1	1288	Octobre 21, 2022
Block crawlers from embedded topics only? Support	17	843	Juin 20, 2023
🤖 Discourse llms.txt Generator Plugin Plugin ai	4	517	Avril 11, 2026

Fontaine empoisonnée Discourse

Sujets connexes