如何防止社区内容被用来训练像ChatGPT这样的LLMs?

将类别设为私有是否能有效阻止所有机器人和大型语言模型(或称“人工智能机器人”)?

老实说,根据我至少在一个话题中对此问题的参与以及对 ChatGPT 搜索 Discourse 等其他软件的搜索,我认为它们没有认真对待 ChatGPT 的威胁和破坏性方面。 IMHO,需要认真考虑为不希望使用任何人工智能的网站所有者和管理员提供支持和功能。

ChatGPT 及其所有同义词就像一根已经点燃了引线的炸弹,而且两端都被点燃了。 :melting_face:

1 个赞

是的,这确实是一种非常可靠的方法。
当然,完全邪恶的行为者仍然能够注册,但这应该可以移除所有合法的爬虫。

注意:我删除了您标记了几位联合创始人的评论,这似乎有些过分。

6 个赞

时间告诉我们这并非过分。人们需要清醒过来。我看到一种偏见正在产生一个巨大的盲点,这也是整个行业的观察,但据我所知,Discourse似乎也没有什么不同。

如果唯一的选择是再次让你的整个论坛私有化,嗯,“市场”已经发生了变化,而且是多方面的、根本性的变化,以至于需要在某种程度的运营上加以考虑。

过分的是ChatGPT及其影响,贪婪不足以形容正在发生的一切的一半,无处不在。

这从根本上破坏了每一个论坛和所有人类创造的内容。你现在可能还在舒适地玩弄着细微之处和哲学上的“如果”,但那个时代已经过去了。这个东西现在已经进入了野外。每一个在万维网之水中沾了点边的人都需要做出决定。

我说的话(以及我删除的话)有点过分了,只是问了一个纯技术问题 17 小时后就去催两位联合创始人/CEO 进行跟进。

你对大型语言模型的担忧是真实且可以理解的,即使我不同意你的看法。

7 个赞

我明白,但你未能理解事情的紧迫性,一个技术问题的答案在人类层面上会产生如此深远的结果和后果,而这些结果和后果绝非技术性的。

有如此多的影响,但每个人都在浑浑噩噩,这表明了各级都缺乏关注。

感谢你的回答。

我们得到的是“杀鸡焉用牛刀”,还是说这坚果实际上是一个零点无限坚果,而我们的锤子真的只是想象中的羽毛。

这有意义吗? :wink:

我认为你明白了。

如果你的网站允许匿名用户读取信息,那么你就无法控制谁会获取这些信息以及他们会如何处理这些信息。据我所知,谷歌刚刚更改了他们的政策,表示任何他们可以读取的内容,都可以用于其人工智能。

如果你的网站允许登录用户读取你的网站,你就无法控制这些用户会如何处理这些信息。

如果你的网站允许用户登录,你不一定知道使用凭据的人是创建该账户的人。如果你想确保没有人可以使用你的数据进行人工智能训练,那么你只需拔掉它的网络连接即可。

6 个赞

使用反向代理时,控制力很小——除非他们更改或使用虚假的用户代理(或者他们使用广泛的 IP 地址,但这条路艰难而崎岖)。

如果您能开发出一种人眼可见但地球上任何相机都无法拍摄的魔法书,请告诉我。

对这项魔法技术非常好奇。

至于你们在 Discourse 平台上托管的论坛,你们的论坛/你们的规则。有些规则可以自动执行,有些则不能(例如:蓝眼睛的人不得阅读此论坛)。

7 个赞

没有人真正认真对待这件事,因为我认为没有人愿意承认和理解这一事件的真正规模,然后不得不真正尝试在其可控范围内采取行动,而更容易加入“终结竞赛”,并将人工智能融入他们的软件,认为他们正在按照市场预期行事,并处于最前沿,至关重要。这就是过去几十年里,在各个层面被允许自由泛滥的过度道德相对主义,导致了事物的巨大瓦解,而技术以闪电般的速度促成了这一切,因为这就像是;

每个人都忘记了他们来到这里的初衷。

我将放慢一点。

我们听到了您的担忧,只是我们不认同,这没关系。我们可以求同存异。我们正在做出明智的决定。没有人强迫您接受。 :slight_smile:

8 个赞

@satonotdead 完全正确

OpenAI 使用了几个数据集来训练他们的模型。看起来最有可能包含 Discourse 内容的数据集是 Common Crawl 数据集 的过滤版本。详情请参阅此文档的 2.2 节:https://arxiv.org/pdf/2005.14165.pdf。Common Crawl 在抓取网站时使用 CCBot/2.0 用户代理字符串。

如果您希望您的 Discourse 网站保持公开可访问,但又想阻止其内容在 未来 被添加到 Common Crawl 数据集中,您可以在 Discourse 网站的 blocked crawler user agents(阻止的爬虫用户代理)设置中添加 CCBot。请注意,阻止 Common Crawl 用户代理可能会带来负面影响(https://www.searchenginejournal.com/how-to-block-chatgpt-from-using-your-website-content/478384/):

许多数据集,包括 Common Crawl,可能会被那些过滤和分类 URL 以创建目标广告投放网站列表的公司使用。

Discourse 中 blocked crawler user agents 设置的使用方式如下:discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub

请注意,Common Crawl 会遵守 robots.txt 文件中的规则,因此也可以通过向文件中添加以下规则来阻止它:

User-agent: CCBot
Disallow: /

ChatGPT 插件在代表用户发出请求时使用 ChatGPT-User 用户代理。此用户代理 用于抓取网络以创建训练数据集:https://platform.openai.com/docs/plugins/bot。也可以通过将其添加到 blocked crawler user agents 设置(或在 robots.txt 文件中添加 Disallow 规则)来阻止此用户代理。

正如其他人所指出的,防止您的网站被用于训练 LLM 最可靠的方法是启用 login required(需要登录)网站设置,从而阻止匿名访问。为了进一步加固网站,可以采取措施提高您网站上用户是人类而非机器人的可能性。一种可能的方法是将 Gitcoin Passport 等服务与网站的身份验证系统集成。我相信一个开源的 Gitcoin Passport Discourse 插件 即将开发出来。

可能还有其他不太技术性的方法可以提高您网站上用户是人类的可能性。例如,可以将网站设置为 invite only(仅限邀请),并采取措施确保您只邀请您有理由相信是人类的用户加入网站。

我觉得这一切背后的理念非常有趣,但我不会在这个话题中深入探讨。

15 个赞

我坚决反对继续审核我尝试深入认真地探讨这个话题的尝试,缓慢的“棍棒”是个笑话,每次都要等一个小时。

有大量用户发布的闲聊帖子仍然存在。缺乏一致性,嗯,偏见,嗯,到目前为止,这对用户来说就是这样,我不会把事情个人化,但这种老化的审核至少可以说是令人窒息的。

我只是想提升当前这个最严重、最令人愤慨的局面,终于我们从 @simon 那里得到了一篇优秀且严肃的帖子。

太棒了,一语中的,正是 OP 和其他人首先需要听到的。许多选项都隐藏在广泛的管理部分,我个人以前从未注意到这个功能/选项。现在我可以测试一下了,如果它能提供比默认卡片更多的自定义信息就更好了。也许自定义文本可以处理这个问题,有人知道吗?

非常感谢。:+1:

如果这篇文章是正确的

您将需要将您的网站从开放互联网中移除/阻止谷歌/启用 login_required

7 个赞

值得注意的是,没有任何东西强制要求爬虫遵守 robots.txt,并且伪造用户代理(user-agent)非常简单。没有任何法律规定这些事情。无论多么紧急或严肃,都不会改变这一点。如果您担心您的数据被使用,您所能做的就是将您的网站设为私有,并等待关于训练数据的各种法律程序的结果。

11 个赞

我预计依赖广告的网站收入会下降,我们会开始看到更多内容被付费墙挡住。互联网免费开放部分的内容质量将会被稀释。

Discourse实际上可以通过为托管客户建立订阅服务来利用这一趋势。

6 个赞

已经有一个订阅插件,可能在托管版本的一些层级中可用。自托管网站已经可以采用它。

隐藏内容的麻烦在于它会影响你的SEO,所以这可能取决于你的新用户渠道是什么。

我个人依赖搜索来吸引新用户,所以只将少量内容设置了账户墙。

对于许多网站来说,你仍然需要被发现!

2 个赞

在我看来,您似乎有两个相关的担忧,@agemo,一个是在软件中使用人工智能,另一个是普通人在网络上的互动可能会被用来训练人工智能。您非常担心这些事情,并且不希望它们发生。

我能理解。我预计很多人都有这些担忧。

让我说,世界上有很多事情让我担心,希望它们能有所不同——但我不会在这里提出它们,因为它们不是这里的人或 Discourse 作为一个产品可以采取行动的。如果我一直提出它们,可能会很烦人,我可能会发现自己被管理。

也许您觉得没有人听到您的声音。但我想这个帖子里真正发生的是,这个帖子里其他人认为您的担忧是无法采取行动的,在这里或由他们无法采取行动。也许可以做些什么,但不是在这里的个人可以做的。也许答案是群众运动、一场运动或一场革命——但我认为,如果这里的版主觉得这些事情在这里不相关,那也是公平的。

3 个赞

事情已经发生了。这是我们无法改变的。人工智能现在已经释放,并且已经发生了。我从未建议过我们可以时光倒流。

版主们认为他们理解这个话题,但他们不理解,却一直在审核我的贡献。我厌倦了谈论审核,而不是解决方案,但他们却一直在这样做,或者其他用户也在这样做,也许他们看不到价值,或者太安逸了。

现实是,自从我试图将这个话题引向更侧重解决方案的焦点以来,尽管审核笨拙,但还是取得了一些成效。

你可能认为你无能为力,但看看它并认识到:
a) 事情很严重
b) 情况很紧急
c) 需要集中精力

这是一个开始,你能够控制你的反应,但不能控制已经发生并影响现在每一天直到可预见的未来的事件。

除了粗暴地使用为其他问题衍生的解决方案外,没有其他解决方案,因此它破坏了主张,因为人工智能事件迫使人们采取立场,打破了他们直到事件发生之前的所有努力。

不愿参与直接威胁并利用你的内容与你迄今为止的所有努力直接竞争,这是非常自然的,但这并非全部。

我将用一个简单的反问句来总结这一切(你可以争论它是否是反问句,但你必须承认人工智能)。

现在为什么有人会考虑部署一个 discourse(或类似)实例?

这个问题有很多担忧,有时一个主题(OP)就体现了问题后果的整个宇宙,而这无疑是其中之一。它不应该如此狭窄,特别是当 Discourse 没有真正的解决方案可提供时,那么该主题本质上是开放的,或者它是“抱歉,由于对此问题没有解决方案,该主题现已关闭”,任你选择。

开放或关闭它。

我们明白了吗?

这就是重点。如果承认没有意愿解决这个问题,那就这样做,否则这个话题将继续存在,并且需要非常广泛,这就是对这个主题所需的审核宽松程度,因为它是一片处女地。

如果碰巧有一些复选框可以在设置中修复它,我们都可以回家了,但实际上还没有,至少还没有。可能有一些权宜之计,但它们不在“已解决”的范畴内,我想大家对此都同意。

由于没有直接针对 OP 的担忧以及 AI 以及管理员如何管理它的问题而构建的解决方案,那么我的观点仍然成立。

如果有,请指出它们,在此处发布它们,或者正在开发的解决方案,或者其他任何东西。我们明白了吗?

这其中就蕴含着开发者、用户以及使这一切正常运作的现有关系的责任。所以我们讨论它。如果需要,一遍又一遍地讨论。

我看到的是对这个问题如何被打破的零承认,直到 OP 在五月份开始以来最近的几篇文章,而我为这些文章而庆祝却被审核了。这太可笑了。人工智能实际上正在破坏网络,再次,为什么还要费心设置 discourse 或类似的平台?如果我们不能以一种严肃、真诚、稳健的方式来讨论它,以适应该主题的要求,那么这就是你的答案。

市场正在变动,所有的金钱、关注和狂热都涌入了 OpenAI 及合作公司的口袋。我看到这里的开发者和其他地方的开发者都在积极主动地选择完全采用和集成人工智能,而且没有任何审慎,零!

这就是为什么这样的 OP 仍然令人沮丧和无济于事。破坏你的 discourse 是唯一确定的解决方案。但这并非解决方案。这几乎是游戏结束。

我将人工智能被开发者如何应对的比喻,反问一句:几乎所有人都忙于建造各种酷炫的水桶来收集火山爆发的熔岩(爆发就是事件),而建造水桶来收集熔岩的反应,熔岩是火山神的礼物,它带来了热量和光明,但它也会快速烧毁东西,没有水桶你就无法控制你拥有的那一部分,但水桶隐藏了这个事实,它似乎安全、酷炫、整洁,暂时

不。那是不正确的。我已经概述了版主们为什么错了,以及它比他们所能容忍的要严重得多,这可能令人失望地反映了 Discourse 和 AI 之间关系中的自上而下的立场……感觉要么是“就这样吧”,要么是耸耸肩,但感觉可能是错的,所以请用事实证明我错了。

有些人理解了我的观点,或者至少更认真地看了 OP,做出了一些更好的贡献,对此我表示感谢,因为它们引导我走向了几种潜在的、非常粗糙的多点解决方案的路径,仍然在进行中,并且需要开发者的一些认可,以更好地适应 AI 提出的要求,使其成为一个可行的、实时的、但仍然是权宜之计的措施。

对于在线论坛来说,过去十年左右的时间是艰难的,从流量到收入都在下降。这一事件的影响打破了这些令人沮丧的图表,对许多运营商来说,这可能预示着最终的厄运,他们将简单地关门大吉。

我想就某些话题进行讨论,所以我运行论坛,让人们可以就这些话题进行交流。我选择了 Discourse,但恕我直言,任何其他开放网络上的解决方案都会面临同样的风险和同样的结果。我希望我的讨论能在开放网络上进行,并出现在搜索结果中。

人们可以在 Telegram 和 Signal 等注重隐私的平台上进行互动,但这些平台提供的功能不同,其构建原因也不同。Discourse 的聊天功能可能能提供你想要的一些功能——碰巧我对此不感兴趣。

2 个赞