Fontaine empoisonnée Discourse

:information_source: Résumé Ajouter des liens cachés au contenu qui peuvent empoisonner les moissonneurs Web qui ne sont pas coopératifs.
:hammer_and_wrench: Lien du dépôt GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers
:open_book: Guide d’installation Comment installer des plugins dans Discourse

Fonctionnalités

À chaque page générée, il ajoutera des liens vers des pages contenant du contenu empoisonné. Si un mauvais moissonneur Web consomme ce contenu et l’utilise pour entraîner un LLM, cela affectera négativement le modèle résultant.

Ces liens sont cachés aux utilisateurs, ils sont marqués avec rel="nofollow" et par défaut le robots.txt indiquera aux robots d’exploration de ne pas consommer ce contenu. Les liens cachés ne sont ajoutés que pour les requêtes non authentifiées.

Le plugin utilise par défaut le contenu empoisonné de RNSAFFN. Consultez cette page pour plus d’informations. Vous pouvez modifier la source d’empoisonnement dans les paramètres.

Le contenu empoisonné est servi à partir de pages avec des URL telles que /dpf/<un-slug-aléatoire>/<id>. Avec la configuration par défaut, vous pourriez créer une règle fail2ban sur ce chemin pour les adresses IP qui demandent des pages à partir de /dpf/ quelques fois pour repousser les mauvais moissonneurs.

Configuration

Vous n’avez qu’à installer et activer le plugin pour qu’il commence à faire son travail en arrière-plan. Vous pouvez ajuster quelques paramètres supplémentaires.

Paramètres

Inclure un tableau des paramètres et des descriptions des paramètres

Nom Description
poison_fountain_source Le site web qui génère le contenu qui sera servi à partir des pages empoisonnées.
poison_fountain_textual_only N’accepter que le contenu textuel de la source d’empoisonnement. Cela empêchera de servir du contenu binaire.
poison_fountain_force_plain_text Servir toujours le contenu comme text/plain même si la source indiquait quelque chose comme, par exemple, HTML.
poison_fountain_update_robots_txt Activé par défaut, cela ajoutera le contenu empoisonné à la liste d’exclusion. Les robots d’exploration qui respectent robots.txt ignoreraient complètement le contenu empoisonné.
poison_fountain_cache_hours Heures de mise en cache du contenu avant de récupérer un nouveau contenu. Maximum de 24 heures.
poison_fountain_entries Nombre d’entrées empoisonnées à conserver
poison_fountain_link_count Nombre de liens à ajouter aux pages HTML générées
6 « J'aime »