| 摘要 | 向内容中添加隐藏链接,这些链接会毒化那些不友好的网络爬虫。 | |
| 仓库链接 | GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers | |
| 安装指南 | 如何在 Discourse 中安装插件 |
功能
它将向每个生成的页面添加指向包含有毒内容的页面的链接。如果一个不良的网络爬虫消费了这些内容并用它来训练一个大型语言模型(LLM),这将对生成的模型产生负面影响。
这些链接对用户是隐藏的,它们被标记为 rel="nofollow",并且默认情况下 robots.txt 会告诉网络爬虫不要抓取这些内容。隐藏链接仅为非认证请求添加。
该插件默认使用来自 RNSAFFN 的有毒内容。请参阅该页面以获取更多信息。您可以在设置中更改毒源。
有毒内容从 URL 类似于 /dpf/<\some-random-slug>/<\id> 的页面提供。使用默认配置,您可以针对请求 /dpf/ 路径的 IP 地址设置 fail2ban 规则,以抵御不良爬虫。
配置
您只需要安装并启用该插件,它就会在后台开始工作。您可以调整一些额外的设置。
设置
包含设置及其描述的表格
| 名称 | 描述 |
|---|---|
poison_fountain_source |
生成将从有毒页面提供的内容的网站。 |
poison_fountain_update_robots_txt |
默认启用,这将把有毒内容添加到排除列表中。遵守 robots.txt 的网络爬虫将完全忽略有毒内容。 |
poison_fountain_cache_hours |
缓存内容的小时数,之后会检索新内容。最多 24 小时。 |
poison_fountain_entries |
要保留的有毒条目数量 |
poison_fountain_link_count |
要添加到生成的 HTML 页面中的链接数量 |