Discourse 已具备代理就绪:以下是具体方法

论坛的受众正在发生变化。部分读者已不再是传统意义上的读者——他们实际上是代表他人行事的代理,将您的内容总结为答案,提供给那些可能永远不会点击链接或成为实际会员的人。无论您运营的是开发者支持社区、客户论坛还是粉丝俱乐部,您的知识此刻正被纳入人工智能的回答中。


这是针对原始帖子的配套讨论主题,原文链接为:https://blog.discourse.org/2026/05/discourse-is-agent-ready-heres-how/
6 个赞

一个真诚的问题:我为什么要允许 AI 爬虫淹没我的服务器?当然,文章明确指出选择权始终在我手中,但从商业角度出发,并以 Reddit 如何处理 AI 抓取为例,这样做的好处是什么?

最近我看到 Google 计划根据用户历史创建个性化页面,这意味着网站管理员的点击量减少,而 Alphabet 的收益增加。那么,重点究竟在哪里?

目前,我允许搜索引擎和缓存索引器(如 Wayback Machine)读取并缓存我的内容,但我无法从中看到任何好处,除了将用户的内容提供给 Alphabet 等公司进行变现,而我的社区却一无所获。此外,还存在法律层面的问题,例如我国的《个人数据保护法》(LGDP)或欧洲的《通用数据保护条例》(GDPR)。

2 个赞

这感觉像是 AI 为 Discourse 以外的论坛撰写的:

2 个赞

感谢分享这篇有趣的文章!

这可以说是 Discourse 最出色的功能之一。
每当我在其他网站上寻找只返回数据的网址却一无所获时,总会感到一阵尴尬。

如果您能为此类陈述始终附上来源链接,那将非常棒。这将有助于读者核实数据 :slightly_smiling_face:

2 个赞

这取决于你论坛的定位,例如如果是品牌论坛或技术支持论坛……你的目标可能是尽快为用户提供答案。如果内容被纳入 AI 训练,可能会带来益处。希望如果是真正未解决的问题,人们仍会访问你的网站提问,但如果他们优先使用 AI,这仍然具有挑战性。

在更偏向社交的语境下,AI 爬虫几乎毫无用处,因为你希望社区成员彼此互动。这种情况下,尝试完全屏蔽它们或许是个不错的选择。

4 个赞

从我个人在 AI 和 SEO 领域的专业角度来看,llms.txt 的影响和重要性尚未得到证实。最近,谷歌明确表示他们既不采用也不支持该标准。但这并不意味着其他智能体不会采用。不过,我认为有必要分享这一细微差别。

3 个赞

说实话,我不愿意。这是个人观点,但我一直禁止大型语言模型访问我的网站,并且将来也会如此。我不喜欢将自己的心血(无论是文字还是代码)无偿提供给爬虫,尤其是像 OpenAI 或 Anthropic 这样的公司。

我的大部分域名都包含类似这样的文件:
https://pyxfluff.dev/robots.txt
https://pyxfluff.dev/llms.txt

当然,这纯属个人偏好。但如果人们不再允许这些公司窃取网站内容,这场 AI 热潮或许就会终结。也许最近谷歌的更新(许多人对此颇有微词)会让网站主们清醒过来,意识到如果不采取措施,他们的网站将不再有任何访问量。

5 个赞

不幸的是,如果您的网站内容是公开可访问的,那么没有一种万无一失的方法可以阻止大型语言模型(LLM)的爬虫。其中许多爬虫会无视 robots.txt 文件,甚至试图伪装成人类访客(使用不同的用户代理和 IP 地址)来绕过封锁。希望某种法律监管能够为这种情况设立护栏,因为看起来许多人希望拥有选择权,决定自己的内容是否以这种方式被使用!

5 个赞