如何防止社区内容被用来训练像ChatGPT这样的LLMs?

这有点令人恼火。

我曾宽松地使用“相似”一词,但绝对有效,仅就一个概念而言,并且仅用于支持特定观点。我认为这很明显吗?

我指出相似性的重点仅限于“特征”提取和匹配的概念,仅此而已,以便与学习概念区分开来,而不是死记硬背。

我完全意识到也存在显著的差异。

你知道我明白人头不像数据中心,对吧?:rofl:

你是说人脑中没有进行特征提取和匹配吗?

因为它正在做这个:

“学习特征检测器
为了使感知系统能够做出控制行为所需的精细区分,感觉皮层需要一种有效的方法来调整多层特征检测神经元的突触权重。”

另请参阅 Feature detection (nervous system) - Wikipedia

这是矛盾的。它绝对不是复制粘贴,而这正是我观点的核心。

它甚至可能不是有损压缩:

是的,它可以。而且,请注意 :sweat_smile:,不像我们那样。

ChatGPT _确实_在泛化。这就是模式匹配,也称为特征提取!它能够以符合语法规则的合理顺序配置单词。它已经“学习”了一套复杂的特征,并且能够构建在任何主题领域都符合语法的句子。它没有存储所有可能的单词组合并每次精确地吐出一个匹配项,即不是复制粘贴!这只是一个演示。它给出的回应展示了新兴的复杂性。

但当然,它还没有复杂到可以“理解”数学。现在还不行。(而且用当前这种技术可能永远也无法做到?)

我完全认识到其复杂性与大脑不匹配,其范围有限,并且所有这些的物理实现方式非常不同。但这并不能否定我的观点……

……这是具体的!

下次我一定会仔细注明我的观点,以避免这种不必要的噪音。:sweat_smile:

2 个赞

虽然这个哲学很有趣,值得讨论,但我认为 OP 只是在寻找一些实用的建议来减轻这种情况。我们能就事论事,专注于这些建议吗? :pray:

11 个赞

完全同意!但我们已经跑题了……

确实如此。存在 实际风险 是训练数据可能在 LLM 输出中泄露,一旦发生这种情况,就可能成为隐私问题或版权问题。我认为合适的工具一方面是数据保护法,另一方面是版权法,因此是许可。

我认为,在用户协议中禁止某些行为,例如数据抓取、大规模下载、纳入机器学习的训练数据,并不会有什么坏处。但为了执行,我建议在内容许可方面要有一定的清晰度。为了有效性,一些合适的清晰许可应该作为默认安装的一部分,这样大多数 Discourse 实例在自我保护方面都会采取相同的方法。

我会参考 EFF 等实体提供的相关政策模板。

3 个赞

哦,还有重要的一点要补充。如果对论坛内容进行限制性许可,最坏的情况下可能会导致难以或无法将论坛迁移到新平台。不要这样做!

(也有社交方面的影响,尽管可能不那么重要。如果论坛条款规定个人的贡献成为论坛的财产,这会让一些人望而却步。但你需要一些东西:你不希望离开的用户坚持要求删除他们所有的帖子。这与这里的主题是不同的问题,但它表明条款很重要。)

2 个赞

在西方国家,至少这样的条款是毫无意义的,它只表明了一件事:平台所有者完全没有知识。

2 个赞

不过,“为什么”也(非常)有趣。
你为什么想知道怎么做?当然是为了去做。
但是,为什么呢?这大大延伸了这个问题

这是一个好问题。而且论坛用户本身实际上正在成为这里的“书”

我想有一种方法,很多网站似乎都在这样做,那就是分析用户的行为。如果(用户)扫描了“太多”页面,尤其是在“太快”的情况下,那很可能就是爬虫。可以添加一些参数,例如使用“托管 IP 地址”而不是住宅 IP 地址,使用“无头”浏览器,不接受 cookie 等等。

所以,是的,所有这些都可以定义和调整,以尝试在技术上阻止尽可能多的爬虫。通常的做法是在怀疑有机器人行为时要求进行 CAPTCHA 验证。这使得人类用户可以继续操作,而如果系统只是阻止用户,那将是不可能的。

当然,如果有人想这样做,他们总能绕过所有这些。通过避免被识别并表现得像许多不同的用户,在许多方面显得更合法,轮换住宅 IP 等等。了解如何抓取系统旨在阻止你抓取的内容几乎就像一场比赛。有些人在这方面非常擅长。有很多资源可以做到这一点。

像 ChatGPT 背后的那些实体可能不会走这条路。他们也可能更倾向于遵守服务条款,使用标准的浏览器用户代理等。为了阻止他们,你说你禁止它的“法律”和简单的事实可能就足够了。这对那些不太在乎法律和直接做法的人无效。

一个相当简单的解决方案是限制访客在登录前可以查看的内容量。但同样,像往常一样,如果那些真正想这样做的人足够有动力,你将很难阻止他们。不过,后者可能不是这个问题中需要针对的重要人群。

4 个赞

我认为这就像控制任何其他爬虫一样。有可以按用户代理拒绝访问的设置。如果爬虫使用的用户代理表明了其用途,您就可以控制它。

我不清楚 GPT 的初始数据集来自哪里,也不知道它将从哪里获取新数据。我认为您需要弄清楚用户代理是什么。

6 个赞

它是否在防火墙级别上工作,而不仅仅是robots.txt?

2 个赞

互联网上的讨论都有天数限制,而那个帖子和我(为了探讨如何做的)的真正问题的回复,就是一个明显的序言。

目前,恐怕没有办法做到这一点,因为搜索只是一个网络包装器。

https://answers.microsoft.com/en-us/bing/forum/all/opt-out-of-bing-chatgpt-ai/8d76e65b-6c8b-42ab-be4b-39e433045703

Disallow: /```

或者

```<meta name='robots' content='noindex, nofollow'>```
3 个赞

并且它肯定会遵守该规则吗?

2 个赞

我想就此发表意见,说这是一个很棒的话题,从我的角度来看,它勉强符合这里的规定,但确实符合。

我认为这很好地概括了这一点。

哈哈,这进入了天网的领域,人工智能会自己做决定吗?

我想举一个例子来说明是的,它会的。

许多宗教都基于《圣经》,而《圣经》则基于人的传统。

所以是的,被创造的可以超越创造者。

总有一天,如果我们不被阻止,我们可能会成为一本新《圣经》的书籍。

你们都可能是门徒 :hugs:

ouroboros

它是一个工具或玩具,直到它不是 :man_shrugging:

3 个赞

一个有趣的笑话——但在现实世界中,大多数机器人并不遵守 robots.txt 规则。它只是一个建议,而不是某种防火墙。

5 个赞

robots.txt 是给爬虫本身的指令
它确实依赖于爬虫会遵守这些指令的假设。没有任何东西能“保证”它们一定会遵守。

你可以在你的 Web 服务器层面阻止用户代理。最常用于 Discourse 的是 NGINX。
在这里,你的 Web 服务器将不会向这些用户代理提供任何内容。这可以通过在你的网站 NGINX 配置文件中添加几行来实现。请进行网络搜索,查找 nginx block user agent 或类似的搜索。

如果爬虫显示的是真实的用户代理,那么这是“保证”的。

3 个赞

这“肯定”不是真的。 :slight_smile:

2 个赞

它肯定会阻止您想要阻止的用户代理 :+1:
(编辑为 :100: % 清晰:通过使用上面提供的 NGINX,而不是仅仅依赖 robots.txt)

如果您处理的是身份识别不正确的恶意行为者,这并不是一个确定的解决方案。但我想您已经完全理解了这一点。

3 个赞

这开始有点无聊了……但事实并非如此。有很多情况,即使是谷歌也不会遵守 robots.txt。

它仍然只是一个建议,没有人应该相信它。

好的,我们想到一块儿去了。

我看到两条回复让我非常害怕,我不想付费,但迟早可能会强制要求付费。

(我没有提供我的信用卡号,而且一直使用临时信息,至少可以保持一点距离)

但人们在付费,价格从 4 倍、10 倍涨到 100 倍,每天 24 美元。我在市场上工作,这太超现实了。



我通常不使用这个设备来搜索网络(选择一些大企业的验证码),因为我觉得在 Linux 上浏览更安全、更私密。我怀疑有人可能会有类似的看法,如果你不是这样,我尊重你。

开源在某种程度上也是受控制的,这听起来可能有点神经质,但我更喜欢我们社区里的人类对话,我们正在讨论界限,也许会使用一些方法来阻止一些没人知道会停止什么的事情。

“幻觉”被注入了,人们在克隆自己。这可能会破坏信息,并在联合中传播非常多的控制。

也许我们现在正处于一个讨论界限、价值观、隐私的好时机。不是审查,也不是抱怨,而是进行一场好的讨论。

如果我们在这个话题上达成一致,我应该分享我的观点和深入研究我那些不牢固但真实的观点。

没有 OpenAI(不开放)的人工智能是否可能成为社区更好的工具?

如果您认为这偏离主题,请移动,或者如果您愿意,请合并。

我不知道这个概念是否可以改编成论坛,但我在我的博客的 .htaccess 文件中运行了这段代码。

RewriteCond %{HTTP_USER_AGENT} ^.*(aolbuild|baidu|bingbot|bingpreview|msnbot|duckduckgo|mediapartners-google|googlebot|Googlebot|adsbot-google|teoma|slurp|yandex|Baiduspider|facebookexternalhit|applebot|FeedFetcher-Google).*$ [NC]	
RewriteRule ^/?REDIRECT-THIS-URL?$\t/TO-THIS-URL\t[L,R=301,NC]

这里的想法是只重定向访问 X 页面的这些用户代理。在我的例子中,我重定向访问当前事件文章的上述用户代理,同时继续让我的圣经内容对所有用户可用。我这样做是为了 SEO 目的,这已经产生了影响,也许有一种方法可以使用类似的东西来阻止 AI 机器人?

我的代码的问题是,对于每个 URL,您都需要另一行代码。

2 个赞

当然。这是一种让您的 Web 服务器以特定方式处理特定用户代理的解决方案。这与我上面描述的几乎相同。只要机器人能够正确识别其用户代理,它就可以正常工作。

1 个赞

顺便说一句,关于这个话题,有人知道 ChatGPT 用户代理是否正在获取爬虫版本吗?我对此表示怀疑……也许应该将其添加到“爬虫”列表中。