| Résumé | Ajouter des liens cachés au contenu qui peuvent empoisonner les moissonneuses Web qui ne sont pas coopératives. | |
| Lien du dépôt | GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers | |
| Guide d’installation | Comment installer des plugins dans Discourse |
Fonctionnalités
À chaque page générée, il ajoutera des liens vers des pages contenant du contenu empoisonné. Si une mauvaise moissonneuse Web consomme ce contenu et l’utilise pour entraîner un LLM, cela affectera négativement le modèle résultant.
Ces liens sont cachés aux utilisateurs, ils sont marqués avec rel="nofollow" et par défaut le robots.txt indiquera aux robots d’exploration de ne pas consommer ce contenu. Les liens cachés ne sont ajoutés que pour les requêtes non authentifiées.
Le plugin utilise par défaut le contenu empoisonné de RNSAFFN. Consultez cette page pour plus d’informations. Vous pouvez modifier la source de poison dans les paramètres.
Le contenu empoisonné est servi à partir de pages avec des URL telles que /dpf/<un-slug-aléatoire>/<id>. Avec la configuration par défaut, vous pourriez créer une règle fail2ban sur ce chemin pour les adresses IP qui demandent des pages à partir de /dpf/ quelques fois afin de repousser les mauvaises moissonneuses.
Configuration
Vous n’avez qu’à installer et activer le plugin pour qu’il commence à faire son travail en arrière-plan. Vous pouvez ajuster certains paramètres supplémentaires.
Paramètres
Inclure un tableau des paramètres et des descriptions de paramètres
| Nom | Description |
|---|---|
poison_fountain_source |
Le site Web qui génère le contenu qui sera servi à partir des pages empoisonnées. |
poison_fountain_update_robots_txt |
Activé par défaut, cela ajoutera le contenu empoisonné à la liste d’exclusion. Les robots d’exploration Web qui respectent robots.txt ignoreraient complètement le contenu empoisonné. |
poison_fountain_cache_hours |
Heures de mise en cache du contenu avant de récupérer un nouveau contenu. Maximum 24 heures. |
poison_fountain_entries |
Nombre d’entrées empoisonnées à conserver |
poison_fountain_link_count |
Nombre de liens à ajouter aux pages HTML générées |