Discourse 毒水池

:information_source: 摘要 向内容中添加隐藏链接,可以毒化那些不友好的网络爬虫。
:hammer_and_wrench: 仓库链接 \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e
:open_book: 安装指南 如何在 Discourse 中安装插件

功能

它将向每个生成的页面添加指向包含有毒内容的页面的链接。如果一个不好的网络爬虫抓取了这些内容并用它来训练一个大型语言模型(LLM),这将对生成的模型产生负面影响

这些链接对用户是隐藏的,它们被标记为 rel="nofollow",并且默认情况下 robots.txt 会告诉网络蜘蛛不要抓取这些内容。隐藏链接仅在非认证请求时添加。

该插件默认使用来自 RNSAFFN 的有毒内容。请参阅该页面以获取更多信息。您可以在设置中更改毒源。

有毒内容从 URL 类似于 /dpf/\u003csome-random-slug\u003e/\u003cid\u003e 的页面提供。使用默认配置,您可以为请求 /dpf/ 路径页面的 IP 地址设置 fail2ban 规则,以抵御不良爬虫。

配置

您只需安装并启用该插件,它就会在后台开始工作。您可以调整一些额外的设置。

设置

包含设置表和设置描述

名称 描述
poison_fountain_source 用于生成将从有毒页面提供的内容的网站。
poison_fountain_textual_only 仅接受来自毒源的文本内容。这将防止提供二进制内容。
poison_fountain_force_plain_text 即使源内容声称是 HTML 等格式,也始终将内容作为 text/plain 提供。
poison_fountain_update_robots_txt 默认启用,它会将有毒内容添加到排除列表中。遵守 robots.txt 的网络蜘蛛将完全忽略有毒内容。
poison_fountain_cache_hours 缓存内容的小时数,之后检索新内容。最多 24 小时。
poison_fountain_entries 要保留的有毒条目数量
poison_fountain_link_count 要添加到生成的 HTML 页面中的链接数量

此项目与 RNSAFFN 没有任何关联。它提供了与他们服务的集成。可以配置此集成以使用其他类似工作的服务。

您应该意识到,使用此插件即表示您信任有毒喷泉生成的以及您转发的内容。默认情况下,此插件将尝试使这些内容“基本无害”,仅将文本内容作为纯文本提供。

7 个赞

我喜欢这个主意。感谢分享。

这是 Cloudflare 使用的 robots.txt 文件(它会附加到您自己的文件中)(我也把它放在下面)

如果有人对这类事情感兴趣的话 :slight_smile:

# 作为访问本网站的条件,您同意遵守以下
# 内容信号:

# (a) 如果 Content-Signal = yes,您可以为相应的用途收集内容。
# (b) 如果 Content-Signal = no,则不得为相应的用途收集内容。
# (c) 如果网站运营者未包含相应用途的内容信号,则网站运营者既未通过内容信号授予也未限制有关相应用途的许可。

# 内容信号及其含义如下:

# search: 构建搜索索引并提供搜索结果(例如,返回您网站内容的超链接和简短摘录)。搜索不包括提供 AI 生成的搜索摘要。
# ai-input: 将内容输入到一个或多个 AI 模型中(例如,检索增强生成、接地或实时获取内容以用于生成式 AI 搜索答案)。
# ai-train: 训练或微调 AI 模型。

# 通过内容信号表达的任何限制都是根据《欧洲联盟关于数字单一市场中版权及相关权利的指令 2019/790》第 4 条对权利的明确保留。

# BEGIN Cloudflare Managed content

User-agent: *
Content-Signal: search=yes,ai-train=no
Allow: /

User-agent: Amazonbot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: meta-externalagent
Disallow: /

# END Cloudflare Managed Content

User-agent: *
Disallow: /lp
Disallow: /feedback
Disallow: /langtest


Sitemap: https://www.crawlstop.com/sitemap.xml