我很想听听那些禁止使用 AI/大语言模型生成内容的论坛工作人员的经验。你们是如何向用户传达这一规定的?又是如何检测此类内容的?对于那些依然发布此类内容的用户,你们又是如何处理的?
欢迎大家分享任何想法。
我很想听听那些禁止使用 AI/大语言模型生成内容的论坛工作人员的经验。你们是如何向用户传达这一规定的?又是如何检测此类内容的?对于那些依然发布此类内容的用户,你们又是如何处理的?
欢迎大家分享任何想法。
大多数,如果不是全部的话,AI 生成的文本只要读一遍就能轻松识别。Google 的 SynthID 是一项很酷的技术,用于检测 AI 图像,它声称甚至能检测出可能仅由 Gemini 生成的文本,但 OpenAI 也支持这一标准。能够亲自识别这些文本可能是一项需要培养的技能,但我非常感谢目前为应对我们无法检测 AI 图像或文本这一危机所做出的努力。
在我看来,屏蔽/封禁仍然是处理这种情况的正确方式,尤其是对于新账户。如果一个随机新账户加入你的网站并立即发布一个由 AI 生成的主题,我认为你完全应该直接封禁该账户并将其拉黑。
至于整个爬取困境:我的网站目前主要用于一家小公司的内部通信和文档记录,我计划最终将其作为博客后端使用。设置一个蜜罐来阻止那些选择忽略我域名上的 robots.txt 文件的爬虫并不难。
仅这一项策略,在两周内就导致了大约 600 万次请求(平均每秒约 6 次请求指向该域名):
每当 AI 爬虫访问该网站时,它们会被引导进入一个由令人愉快的 iocaine 项目构建的无限垃圾迷宫中。该项目是我自托管的,使用了一个包含约 7000 个虚构词汇、一些乱码 HTML、随机词汇以及由 8B Llama 生成的假新闻的数据集。
显然,这是一种核弹级的“滚开”策略,并不适合所有人,但在我阻止 LLM 窃取我的代码或文本内容这一目标上,它对我非常有效。我记得读过 Anthropic 做的一项关于 LLM 投毒的案例研究,但我再也找不到那篇文章了,所以这里不会附上,但毫无疑问,当他们意识到 bot 向我的域名发送了大约 500 万次请求时,他们最终会屏蔽我的域名。