禁止AI内容的论坛……进展如何?

我很想听听那些不允许 AI/LLM 生成内容的论坛工作人员的经验。你们是如何向用户传达这一规定的?你们又是如何检测这些内容的?对于那些仍然发布此类内容的用户,你们是如何处理的?

欢迎分享任何想法。

注:就我个人而言,我只关注网站前端交互中的人性化方面。我假设阻止爬虫是徒劳的。

我们的论坛是一个精神/宗教讨论论坛。我们禁止任何 AI 生成的内容。

6 个赞

大多数,如果不是全部的话,AI 生成的文本只要读一遍就能轻松识别。Google 的 SynthID 是一项很酷的技术,用于检测 AI 图像,它声称甚至能检测出可能仅由 Gemini 生成的文本,但 OpenAI 也支持这一标准。能够亲自识别这些文本可能是一项需要培养的技能,但我非常感谢目前为应对我们无法检测 AI 图像或文本这一危机所做出的努力。

在我看来,屏蔽/封禁仍然是处理这种情况的正确方式,尤其是对于新账户。如果一个随机新账户加入你的网站并立即发布一个由 AI 生成的主题,我认为你完全应该直接封禁该账户并将其拉黑。

至于整个爬取困境:我的网站目前主要用于一家小公司的内部通信和文档记录,我计划最终将其作为博客后端使用。设置一个蜜罐来阻止那些选择忽略我域名上的 robots.txt 文件的爬虫并不难。

仅这一项策略,在两周内就导致了大约 600 万次请求(平均每秒约 6 次请求指向该域名):

每当 AI 爬虫访问该网站时,它们会被引导进入一个由令人愉快的 iocaine 项目构建的无限垃圾迷宫中。该项目是我自托管的,使用了一个包含约 7000 个虚构词汇、一些乱码 HTML、随机词汇以及由 8B Llama 生成的假新闻的数据集。

显然,这是一种核弹级的“滚开”策略,并不适合所有人,但在我阻止 LLM 窃取我的代码或文本内容这一目标上,它对我非常有效。我记得读过 Anthropic 做的一项关于 LLM 投毒的案例研究,但我再也找不到那篇文章了,所以这里不会附上,但毫无疑问,当他们意识到 bot 向我的域名发送了大约 500 万次请求时,他们最终会屏蔽我的域名。

4 个赞

(我注意到我们暂时搁置了关于爬虫负载、爬虫抓取内容用于训练,以及当前快速发展所带来的社会和经济后果的问题。这很好。)

就我个人而言,在一个低流量的爱好论坛上:

  • 我们正努力协商并制定书面政策
  • 我们见招拆招,遇到问题再处理
  • 最恶劣的例子本质上就是垃圾信息,因此我们会删除并封禁
  • 其他情况下,我们会进行劝诫,可能在公开场合,也可能在私下,并可能删除相关帖子

建议的指导方针可能如下:

  • “拥有”你发布消息的内容(即阅读并理解,而不是盲目地复制粘贴内容,无论其来源如何)。
  • 在开启新话题之前,先尽己所能尝试自行回答问题(例如通过搜索论坛)。
  • 以简洁的方式沟通具体细节,以便其他用户能够阅读并理解,从而提供帮助,即避免冗长重复或无关的文本堆砌,或信息不足的过于宽泛的陈述。
  • 保持讨论紧扣主题,避免元讨论(特别是关于 AI 的使用——无论是“最佳实践”还是“伦理问题”)。
  • 保持对话尊重,记住我们的用户拥有不同的背景、观点和意见。
  • 享受乐趣!这原本就是个爱好。

(在我们的爱好环境中,还有一个额外的角度,即在爱好中使用大语言模型(LLM),这涵盖了多种可能性,既有支持者,也有反对者。)

3 个赞