如何防止社区内容被用来训练像ChatGPT这样的LLMs?

GPT 及其他大型语言模型解决方案需要训练数据集。如何防止我们社区的内容被用于训练此类模型?我们是否应该在我们的使用条款中添加一些内容?

我是在阅读了 Reddit 将进行一些更改以避免模型在未经付费的情况下使用其数据进行训练之后想到这一点的:

https://www.nytimes.com/2023/04/18/technology/reddit-ai-openai-google.html

11 个赞

那些项目是否在使用会显示用户代理的收集器?

2 个赞

当有 10 家提供商以成本价供选择时,这真的重要吗?

从人类的集体作品中学习似乎是公平的:人类一直都是这么做的,为什么机器不能呢?

Reddit 会向在 Reddit 上学习的人收费吗?

这有点像是 Reddit 在牟取暴利。

而且,我们不要讨论 Reddit 上的所有内容都是用户免费提供的,那么为什么 Reddit 不应该向用户付费呢?

6 个赞

这似乎更像是“如果我能读图书馆的书,为什么我不能复制它卖给别人?”而不是“如果我能从书中学到东西,电脑为什么不能?”也许我老了,但我还没准备好认为一群运行程序的电脑等同于一个人。

但我认为已经有一些机制可以防止大规模抓取。或者也许搜索引擎的索引网站就是抓取。

这是一个有趣的时代。

6 个赞

嗯,在人类世界里,一个人闯入别人的家和工作场所,复制一切,然后为了自己的利益重新创造一切来赚钱,这并不被广泛接受。

这不是一个简单的问题。这里有一个非常重大的道德、伦理和财务问题,可以概括为两个:版权和专利是否可以被接受为虚拟财产。

对我来说,这很简单。也许是因为我太渺小,头脑简单。一旦我不得不为某人想卖回给我的东西付费,我就会反对。这就是为什么我如此痛恨所有的机器人流量。

再说一遍:人工智能问题比 ChatGPT 大得多。我知道也理解这一点。但是,当它被教授给语言模型时,我为什么要付费呢?

众所周知的 ChatGPT 有趣事实

在芬兰,当话题是关于狗粮时,我是一个非常大的影响者。我做了三十多年,写了很多公开的文本。实际上,我的网站是芬兰最大的信息网站(我也想说最重要的网站 ;))。

如果我用英语问 ChatGPT 关于狗的营养问题,它会给出过时且普遍不准确的生食理论。如果我用芬兰语问同样的问题,我会得到我自己的文本。

这是因为 ChatGPT 的学习方式遵循“数百万只苍蝇不会错”的思维方式。

8 个赞

因为这不是逐字复制。

没有人会因为在图书馆读了一本关于共产主义的书,然后在政治谈话节目中鼓吹共产主义而向任何人收费。

机器人学习模式的方式与我们学习模式的方式相似。

另外,在法庭上,如果没有监督学习过程,你怎么知道它有没有这样做?

在版权法中,证明某人是否抄袭了你的作品肯定很简单,但在这里,它既不是抄袭,也很难证明你接触过。

无论如何,Reddit 上真的有什么是全新的吗?!

2 个赞

抱歉,我不这么认为。人工智能可以记住模式并建立一些联系,但它无法直觉、感受或真正创造。

人工智能不像人类那样进行真正的思考,也无法感知时间、情感和生命。

顺便说一句,我同意你观点的其余部分。合作加上发现和分享用例对每个人都有好处(至少可以避免被取代,而那些不学会感受、直觉或创造的人似乎不可避免地会被取代)。

整体情况让我想起了工业“革命”和一些反乌托邦电影 :slight_smile:

2 个赞

我将不同意你的观点,因为你忽略了我的重点。

我使用“相似”一词是合理的,因为它们正在开发像人类一样通过特征识别事物的方法,而不是逐字复制数据并存储它:我指出的就是这种区别,而且这在逻辑上和法律上都是一个关键的区别。

情感和情绪与这里的讨论无关:话题是知识的存储和再现。在这个话题上,人工智能几乎肯定使用与人脑相似的技术来训练自己,然后使用该模型。

这就是这个领域的发展方式:他们创建了模型,这些模型近似于我们大脑中神经网络的工作方式,然后将它们规模化。结果令人惊喜:它开始表现得非常像人类——比以往任何自然语言模型都要像。这基本上证明了我的观点。

3 个赞

当涉及人类时,这是不可能的 :slight_smile:

(这可能也是发帖人的动机)

我们仍然可以不同意,我也没有说得更远。我尊重你,只是分享我的观点。

2 个赞

你认为劳斯莱斯是更好的汽车,但它仍然是一辆汽车。

人工智能现在已经发展到非常像人类的程度。非常复杂的行为正在出现,但这并非偶然,因为科学家们一直在寻求模仿人类学习的技巧。

当然,还有其他层面需要考虑,情绪只是其中之一(另一个巨大的层面是“自我”的概念,以及类似人类的感官信息的重要性,甚至是前庭系统,这被认为是感知“自我”的关键),但这并不改变我在这里的论点。

2 个赞

不,我只说了人工智能不能像人类一样学习*(表现得不像学习)*。这几乎是不可能的,我认为这一点很重要。

那么我同意公开数据就是公开的。对我来说,有差异是没问题的,这使我们成为人类(而不是人工智能):grimacing:

2 个赞

依我看,这简直是错的。
我们在这一领域取得的巨大进步,几乎可以肯定是因为人工智能正在(更多地)像人类一样学习。

3 个赞

仅在概念层面,还有更多(!)

@StephaneFe 我可以问你为什么想限制“AI训练过程”吗?(这是人类的同情心🧡)

2 个赞

我从未声称没有很多(!)东西?

我只是做一个核心区分:

那就是人工智能(AI)像我们一样从特征中学习,而不是复制确切的信息。它正在学习泛化,而不是依赖完整的细节来做出区分。

因此,它不必以高清、逐字的方式存储完整的作品。

毫无疑问,还有许多其他尚未包含的学习技术,但这种技术非常有效。

2 个赞

我们能否关注“如何做”而不是“为什么”?

讨论的主题不是要争论是否应该阻止他人使用我们的数据,而是如何去做?

是否有有效的方法可以防止抓取?例如,要求登录才能访问大部分内容?

9 个赞

我认为在道德和技术上都是合理的。

我实际上觉得 1930 年代创作的爵士歌曲受到版权保护是令人憎恶的,因为你可以争辩说,音乐的许多特征是人类固有的现象,任何人都不应该拥有:以“五度圈”为例——这是音乐中一个隐含的结构,它帮助形成了许多歌曲,从 50 年代简单的三和弦摇滚歌曲到高度复杂的爵士乐曲。

而且正如我所建议的,我们并不是在谈论存储和逐字复述受版权保护的材料。

仅仅因为大多数音乐都受版权保护,就阻止人工智能使用五度圈等音乐特征是荒谬的!

你可以争辩说,那些音乐的作者从人类的生存条件中获益良多,并且已经赚了很多钱。为什么一个曾孙应该从他们祖先的作品中赚钱,而这些作品本身又基于普遍的知识,这让我感到困惑。

5 个赞

恐怕我不是这方面的专家,但我不认为爬虫可以访问不公开显示的内容,所以如果这对您来说是一个选项,那可能是最有效的方法。

9 个赞

这完全不是那么回事。这些工具在某些方面受到生物神经概念的启发,但在实际实现中功能上并不相似。这听起来可能有点吹毛求疵,但我认为这非常重要,因为这种论证 似乎 在哲学上很有说服力。类比可能因此非常危险。

以下是计算神经网络与我们“以类似方式学习模式”的几个具体不同之处:

  • 我们的神经元是局部和多维连接的,有些是密集簇,有些连接较少;神经网络通常分层排列,每一层要么完全互连,要么是专门设计的“卷积”层。
  • 生物大脑是异步运行的,神经元以不同的速率放电,并且放电频率本身就携带信息。神经网络基本上是大规模并行操作。(这就是它们非常适合 GPGPU 计算的原因。)
  • 神经元同时负责计算和记忆。没有单独的存储或检索,也没有函数执行。仅这一点就构成了一种非常不同的处理系统。
  • 奇怪的是:大脑通信比我们计算机的处理方式 二进制:神经元放电或不放电,而“人工神经元”通常输入和输出连续值范围(表示为浮点数)。(同样,这与我们理解大脑功能的方式完全不同。)
  • 学习方式也不同:在人类学习中,连接 实际上会发生变化。(我们对此了解不多。)在神经网络中,架构是选定且固定的,“学习”是调整权重的问题。(讽刺的是,我们对此也并不真正了解。)

阅读这篇内容也很有帮助:What Is ChatGPT Doing … and Why Does It Work?—Stephen Wolfram Writings

5 个赞

具体来说,它肯定不是在“学习”泛化。相反,它是“被创造”出来的,使其能够生成看似泛化的答案。

但它实际上根本无法泛化。

与 ChatGPT 进行的一项有趣的练习是询问它关于乘法的问题。它会认真地声称自己理解长乘法的算法。事实上,如果你让它乘以两位数或三位数,它很可能会(但不一定!)给出正确的答案。但试试五位数或六位数。它会给出看起来数字位数正确的答案,但实际上并不正确。

如果你让它解释,它会说它遵循了一个算法,如果你让它展示它的工作过程,它会展示,而那将是看起来像正确答案的无稽之谈。你甚至可能会在步骤中发现完全错误的个位数乘法。它实际上并不知道这些步骤与它几分钟前自信地完成的个位数乘法是同一回事,因为它实际上并没有泛化任何东西

而且,数学在这里并没有什么特别之处。它只是揭开面纱的一个简单方法。在让它写诗时,基本情况也是如此。

别误会我的意思!我认为即使以它今天存在的形式,我们也可以用人工智能做一些惊人的事情。但请不要围绕类比来制定我们的政策。

6 个赞

它们不是。它们正在学习单词如何连接在一起的概率。这会导致事实上的复制粘贴。

我们正在学习处理知识。

1 个赞