如何防止社区内容被用来训练像ChatGPT这样的LLMs？

agemo · 2023 年7 月 15 日 19:02

是的，这是一个非常宽泛的修辞观点，我认为你忽略了其中的含义。

让我大胆地说，你的逻辑过程是在当前迭代的 AI/ChatGPT 迭代之前的某个时期进行的，那是一个旧的常态展示空间。

今天身处同一领域的人们拥有这个新的、吸引眼球的、改变范式的热门话题（AI），它似乎在潜力和后果方面都承诺着看似无限的“X因素”。

如果 AI 能够访问所有先前活动和假设，那么所有这些信息都会使过去的决策变得无效。有足够的在线轶事表明，用于喂养 AI 的数据抓取已经进行了 3 年、5 年甚至更长时间。以 DeepMind 为例，可能早在 2014 年谷歌收购它时就开始了（也许对日志样本进行法证筛选可以证明这一点，或者也许它被隐藏起来以防止这种情况发生）。如果你将此视为相对真实，你就可以看到问题在于技术准备时间的紧迫性。

所有内容可能都被抓取了，而且为时已晚，但我已经将这些因素考虑到了我的担忧和陈述中，我在这里提到它只是因为，正如我所说，没有时间机器解决方案，只有审慎的力量来指导现在和未来的解决方案。

Ed_S · 2023 年7 月 15 日 19:06

抱歉，我无法理解。

agemo · 2023 年7 月 15 日 19:11

这个问题暗示着现在城里出现了一个引人注目的新选择，它被视为满足许多需求的最佳解决方案，那就是人工智能（由ChatGPT驱动的技术）。

Ed_S · 2023 年7 月 15 日 19:24

您是说没有人会选择建立论坛，因为大型语言模型（LLM）提供了人们从论坛中想要的一切吗？（顺便说一句，这不是本帖的主题。）

（如果您希望人们为您做某事，我认为您需要清楚地说明您认为问题是什么，以及您认为他们能为您做什么。我看到您非常关心，但我不知道您想要什么。和任何人一样，我的时间和精力有限，所以我不会努力去弄清楚您的想法。）

编辑添加：

对本帖的当前“AI”总结，以供后世参考

一个关于防止社区内容被用于训练像 ChatGPT 这样的语言模型的论坛讨论，围绕着通过要求登录、通过 robots.txt 或 Discourse 设置的被阻止的爬虫用户代理来阻止抓取器，或者将网站完全从开放互联网中移除，从而使内容私有化。虽然有些人不同意阻止使用公共数据，并认为这是进步不可避免的一部分，但另一些人认为内容创作者应该对他们作品的使用方式有更多的控制权。讨论探讨了关于信息和创造力所有权的哲学问题，并提供了减轻人工智能系统使用数据的实用技巧。

agemo · 2023 年7 月 15 日 19:40

突然出现了一个新的理由，让大多数人都难以抗拒不去选择旧的方法。

我不是原帖（OP）的发布者，但我现在更能体会原帖发布者的感受。

1）认真对待原帖发布者，这是没有人做到的，

以及

2）原因在于，所有这类事件都会产生深远的积极和消极影响，我认为或并未察觉到对负面影响的任何严肃认识，反而存在对感知到的正面影响的偏见，因此没有活动来评估和缓解这些负面影响，即在平台层面支持受影响者。

再说一遍，我不是原帖发布者，但原帖发布者的问题是所有公开讨论的问题。这也是对网络的系统性生存威胁，它不分平台，或者

它只不过是“酷炫的新玩具”，可以实际地玩弄。

后者在这种背景下是不严肃的。这是故意的视而不见。我个人觉得这是不负责任的。这使得人工智能范式更加危险。

单一主题无法解决这个问题，这是领导力问题。我最初是通过 @sam 和 @codinghorror 开始的，那时所有的审核灾难就开始了，一次性的，没有被滥用，但你知道，其他人想得更好，自以为是，等到人工智能真正插足进来吧。

底线：这个问题需要非常认真地对待。

所以它可能需要自己的分类。它的影响非常巨大。

agemo · 2023 年7 月 15 日 21:23

到目前为止，除了不是解决方案而是破坏性的解决方案之外，如果策略是使用 - login_required（设置）来锁定门，那么在这种情况下，为了减轻负面流量冲击的影响，如果您依赖搜索流量，那么就需要有一些东西可以查看，但不是全部。

WP 前端 / Discourse login_required 网站
（更多工作，更多托管成本，支持等）

也有助于解决此问题但并非专门为此问题设计的方面：

已发布页面 如果开发了专用的列表页面，并提供了一些配置选项，则可以充当桥接登陆页面，用户可以在其中查看一些公开的前端内容，并提示注册以阅读更多内容。

– 允许在自己的页面 /pub 上列出已发布页面（设为主页）
– 允许在 login_require 页面上列出已发布页面
– 允许在 login_required 页面上显示自定义类别或最新内容

我前几天在尝试解决此问题时才发现了已发布页面功能，并且我记得即使在 AI 难题之前，以前的用户也曾请求过类似已发布页面的列表功能。

在我看来，更可配置的已发布页面处理方式比整个 WP 前端附加组件更受青睐，如果需要解决某个面向公众的连接点的话。

仅列出主题的首帖

仅显示任何主题的第一帖，并要求登录才能阅读评论。我至少见过一次类似的建议，但被否决了，但在这种情况下需要重新评估。

同时，请将这些建议视为不完整的列表，仅仅是解决部分问题而非全部问题的潜在权宜之计。

与此同时，我将用大量的情感来恐吓这个话题 How are we all feeling about ChatGPT and other LLMs and how they'll impact forums?

simon · 2023 年7 月 15 日 21:28

从你上次的回复来看，我看到我们得出了一个差不多的结论，即通过混合公共和私人内容来处理这个问题。在你回复之前，我写了下面的帖子。我还是会发出去，希望能为这个论点提供一些支持。

我认真对待 OP，一方面是因为它提出了一个合理的问题，另一方面是因为我可能和它的作者一样担心 LLM 将如何影响互联网。如果我理解得没错，你担心的是，我们正在目睹互联网运作方式的根本性改变——人们不再直接访问网站，而是通过 LLM 作为与互联网公共部分交互的首选界面。这其中有各种各样的影响，可能无法在此得到有效的处理。

这里可以处理的问题是如何防止 Discourse 内容被用于训练 LLM。Discourse 提供了一些可能的方法。

第一种方法比较弱——保持网站公开，并尝试阻止任何用于抓取数据的用户代理，使用 blocked crawler user agents 网站设置。同时，你可以参与针对抓取数据的科技公司的法律诉讼。

更强大的方法是让你的网站全部或部分内容设为私有。这可以通过 login required 网站设置，或通过分类安全设置来实现。

我看到的对上述方法的主要反对意见是，人们希望他们的网站能够被搜索引擎发现。我怀疑有办法解决这个问题。最简单的方法是有一个公开的、经过 SEO 优化的博客，并关联一个私有的 Discourse 论坛。一个更复杂的解决方案是让 Discourse 提供一种功能，允许主题的 OP（原始帖子）的一部分公开，而主题的其余大部分只能由 Discourse 群组的成员访问。这类似于 Substack 等服务如何处理仅提供给付费订阅者使用的内容——它们会显示一些对匿名用户和爬虫可见的内容，然后显示一个注册号召（CTA）：

所以，我想，除了我对于 LLM 将如何影响互联网的担忧之外，我还看到了一个机会，可以探索为内容创作者提供资金的新途径。

anon65426961 · 2023 年7 月 15 日 23:26

此设置在哪里？

pfaffman · 2023 年7 月 15 日 23:45

你的问题是“为什么有人会制作任何可以发布到公共互联网的东西？”

当你在公共互联网上提出问题时，没有人会和你持有相同观点来回答你的问题。

sam · 2023 年7 月 16 日 00:25

这个话题很累人，基于人工智能的摘要很好地涵盖了该主题，滚动到顶部并单击它

关闭3个月

sam · 2023 年10 月 14 日 00:26

此主题在 90 天后自动开启。

话题		回复	浏览量
What is stopping you from trying out Discourse AI? Community Building ai	35	2130	2025 年8 月 23 日
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	102	9271	2025 年2 月 13 日
Discourse is Agent Ready: Here’s How Blog	9	634	2026 年5 月 24 日
Forums that forbid AI content… How's it going? Community Building	23	706	2026 年7 月 13 日
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	34	1994	2025 年11 月 20 日

如何防止社区内容被用来训练像ChatGPT这样的LLMs？

相关话题