Fontaine empoisonnée Discourse

:information_source: Résumé Ajouter des liens cachés au contenu qui peuvent empoisonner les moissonneuses Web qui ne sont pas coopératives.
:hammer_and_wrench: Lien du dépôt GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers
:open_book: Guide d’installation Comment installer des plugins dans Discourse

Fonctionnalités

À chaque page générée, il ajoutera des liens vers des pages contenant du contenu empoisonné. Si une mauvaise moissonneuse Web consomme ce contenu et l’utilise pour entraîner un LLM, cela affectera négativement le modèle résultant.

Ces liens sont cachés aux utilisateurs, ils sont marqués avec rel="nofollow" et par défaut le robots.txt indiquera aux robots d’exploration de ne pas consommer ce contenu. Les liens cachés ne sont ajoutés que pour les requêtes non authentifiées.

Le plugin utilise par défaut le contenu empoisonné de RNSAFFN. Consultez cette page pour plus d’informations. Vous pouvez modifier la source de poison dans les paramètres.

Le contenu empoisonné est servi à partir de pages avec des URL telles que /dpf/<un-slug-aléatoire>/<id>. Avec la configuration par défaut, vous pourriez créer une règle fail2ban sur ce chemin pour les adresses IP qui demandent des pages à partir de /dpf/ quelques fois afin de repousser les mauvaises moissonneuses.

Configuration

Vous n’avez qu’à installer et activer le plugin pour qu’il commence à faire son travail en arrière-plan. Vous pouvez ajuster certains paramètres supplémentaires.

Paramètres

Inclure un tableau des paramètres et des descriptions de paramètres

Nom Description
poison_fountain_source Le site Web qui génère le contenu qui sera servi à partir des pages empoisonnées.
poison_fountain_update_robots_txt Activé par défaut, cela ajoutera le contenu empoisonné à la liste d’exclusion. Les robots d’exploration Web qui respectent robots.txt ignoreraient complètement le contenu empoisonné.
poison_fountain_cache_hours Heures de mise en cache du contenu avant de récupérer un nouveau contenu. Maximum 24 heures.
poison_fountain_entries Nombre d’entrées empoisonnées à conserver
poison_fountain_link_count Nombre de liens à ajouter aux pages HTML générées
3 « J'aime »