OpenAIは、モデルのトレーニングにいくつかのデータセットを利用しています。Discourseのコンテンツが含まれている可能性が最も高いデータセットは、Common Crawlデータセットをフィルタリングしたバージョンです。詳細は、こちらのドキュメントのセクション2.2を参照してください: https://arxiv.org/pdf/2005.14165.pdf。Common Crawlは、サイトをクロールする際にCCBot/2.0ユーザーエージェント文字列を使用します。
Discourseサイトを公開にアクセス可能に保ちつつ、将来的にCommon Crawlデータセットにコンテンツが追加されるのを防ぎたい場合は、Discourseサイトの「ブロックされたクローラーユーザーエージェント」設定にCCBotを追加できます。Common Crawlユーザーエージェントをブロックすることには、潜在的なデメリットがあることに注意してください (How to Block OpenAI ChatGPT From Using Your Website Content):
Common Crawlを含む多くのデータセットは、URLをフィルタリングおよび分類して、広告のターゲットにするウェブサイトのリストを作成するために企業によって使用される可能性があります。
Discourseにおける「ブロックされたクローラーユーザーエージェント」設定の使用方法については、こちらを参照してください: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub
Common Crawlはrobots.txtファイルのルールを尊重するため、ファイルに以下のルールを追加してブロックすることも可能です:
User-agent: CCBot
Disallow: /
ChatGPTプラグインは、ユーザーに代わってリクエストを行う際にChatGPT-Userユーザーエージェントを使用します。このユーザーエージェントは、トレーニングデータセットを作成するためにウェブをクロールする目的では使用されません: https://platform.openai.com/docs/plugins/bot。このユーザーエージェントも、「ブロックされたクローラーユーザーエージェント」設定に追加する (またはrobots.txtファイルにDisallowルールを追加する) ことでブロックできます。
他の人が指摘しているように、サイトがLLMのトレーニングに使用されるのを防ぐ最も信頼性の高い方法は、「ログイン必須」サイト設定を有効にして、匿名アクセスを防止することです。サイトをさらに強化するために、サイト上のユーザーが人間であり、ボットではない可能性を高めるための措置を講じることができます。そのための可能なアプローチの1つは、Gitcoin Passportのようなサービスをサイトの認証システムと統合することです。オープンソースのGitcoin Passportプラグイン for Discourseがまもなく開発される予定だと考えています。
サイト上のユーザーが人間である可能性を高めるための、より技術的でない方法もあるかもしれません。例えば、サイトを「招待制」に設定し、サイトに招待するユーザーが人間であると確信できる理由があることを確認するための措置を講じることができます。
これらのすべてを支える哲学は非常に興味深いと思いますが、このトピックでは深入りしません。