OpenAI 使用了几个数据集来训练他们的模型。看起来最有可能包含 Discourse 内容的数据集是 Common Crawl 数据集 的过滤版本。详情请参阅此文档的 2.2 节:https://arxiv.org/pdf/2005.14165.pdf。Common Crawl 在抓取网站时使用 CCBot/2.0 用户代理字符串。
如果您希望您的 Discourse 网站保持公开可访问,但又想阻止其内容在 未来 被添加到 Common Crawl 数据集中,您可以在 Discourse 网站的 blocked crawler user agents(阻止的爬虫用户代理)设置中添加 CCBot。请注意,阻止 Common Crawl 用户代理可能会带来负面影响(https://www.searchenginejournal.com/how-to-block-chatgpt-from-using-your-website-content/478384/):
许多数据集,包括 Common Crawl,可能会被那些过滤和分类 URL 以创建目标广告投放网站列表的公司使用。
Discourse 中 blocked crawler user agents 设置的使用方式如下:discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub
请注意,Common Crawl 会遵守 robots.txt 文件中的规则,因此也可以通过向文件中添加以下规则来阻止它:
User-agent: CCBot
Disallow: /
ChatGPT 插件在代表用户发出请求时使用 ChatGPT-User 用户代理。此用户代理 不 用于抓取网络以创建训练数据集:https://platform.openai.com/docs/plugins/bot。也可以通过将其添加到 blocked crawler user agents 设置(或在 robots.txt 文件中添加 Disallow 规则)来阻止此用户代理。
正如其他人所指出的,防止您的网站被用于训练 LLM 最可靠的方法是启用 login required(需要登录)网站设置,从而阻止匿名访问。为了进一步加固网站,可以采取措施提高您网站上用户是人类而非机器人的可能性。一种可能的方法是将 Gitcoin Passport 等服务与网站的身份验证系统集成。我相信一个开源的 Gitcoin Passport Discourse 插件 即将开发出来。
可能还有其他不太技术性的方法可以提高您网站上用户是人类的可能性。例如,可以将网站设置为 invite only(仅限邀请),并采取措施确保您只邀请您有理由相信是人类的用户加入网站。
我觉得这一切背后的理念非常有趣,但我不会在这个话题中深入探讨。