コミュニティコンテンツがChatGPTのようなLLMの学習に使われるのを防ぐには?

GPTや他のLLMソリューションにはトレーニングデータセットが必要です。私たちのコミュニティのコンテンツがそのようなモデルのトレーニングに使用されるのを防ぐにはどうすればよいですか?利用規約に何か追加すべきでしょうか?

Redditが、報酬なしにデータがモデルのトレーニングに使用されるのを避けるために変更を加えるという記事を読んだ後、このことを考えました。

https://www.nytimes.com/2023/04/18/technology/reddit-ai-openai-google.html

「いいね!」 11

それらのプロジェクトは、ユーザーエージェントを伝えるハーベスターを使用していますか?

「いいね!」 2

コスト価格で10社のプロバイダーから選択できる場合、本当に意味があるのでしょうか?

人類の集合的な作品から学ぶことは、十分に公平であるように思われます。人間は常にそうしているので、機械もそうするのはなぜでしょうか?

Redditは、Redditで学んだことに対して人間から料金を請求するのでしょうか?

これはRedditによる不当な利益のように思えます。

そして、Redditのすべてのコンテンツはユーザーから無料で提供されているという事実については触れないでおきましょう。なぜRedditはユーザーに報酬を支払わないのでしょうか?

「いいね!」 6

図書館で借りた本を読むことができるのに、なぜそれをコピーして他の人に売ることができないのか?という問いに近いように思えますが、「本から学ぶことができるなら、コンピューターにもできるのではないか?」という問いとは異なります。私が古いのかもしれませんが、プログラムを実行しているコンピューターの集まりが、人間と同じであるとはまだ考えられません。

しかし、大規模なスクレイピングが行われないようにするための対策はすでに講じられているとも思います。あるいは、検索エンジンのためのインデックスサイトがスクレイピングなのでしょうか。

興味深い時代です。

「いいね!」 6

まあ、他人の家や職場に侵入し、すべてをコピーして、金儲けのためにすべてを再創造することが、人間社会で広く受け入れられているわけではありません。

これは簡単な質問ではありません。著作権や特許は仮想財産として受け入れられるのか、それともそうではないのか、という非常に大きな道徳的、倫理的、経済的な問題に要約できます。

私にとっては、これはかなり簡単な問題です。おそらく、私が非常に小さく、基本的に単純な考えの魚だからでしょう。自分のために売ろうとしている誰かのビジネスにお金を払わなければならないとわかった瞬間、私は反対します。だからこそ、私はすべてのボットトラフィックを深く憎んでいます。

繰り返しますが、AIの問題はChatGPTよりもはるかに大きいです。そして、私はそれを知っており、理解しています。しかし、言語モデルに教え込まれたものを、なぜ私が支払う必要があるのでしょうか?

ChatGPTに関する広く知られた面白い事実

フィンランドでは、犬の餌やりというトピックに関しては、私は非常に大きなインフルエンサーです。30年以上このことを行っており、多くの公開テキストを作成してきました。実際、私のサイトはフィンランドで最大の(そして最も重要な :wink: )情報サイトです。

英語で犬の栄養について何かを尋ねると、ChatGPTは古く、広く不正確なバルク理論を提示します。フィンランド語で同じ質問をすると、私のテキストが返ってきます。

これは、ChatGPTの学習方法が「百万匹のハエが間違っているはずがない」という考え方に従っているために起こります。

「いいね!」 8

それは逐語的にコピーしているわけではないからです。

図書館で共産主義に関する本を読んで、政治トーク番組で共産主義を擁護する人に料金を請求する人はいません。

ボットは、私たちが行うのと同様の方法でパターンを学習しています。

また、法廷で、学習プロセスを監督していない場合、それが学習したかどうかを知る方法はあるでしょうか?

著作権法では、誰かがあなたの作品をコピーしたかどうかを証明するのは確かに簡単ですが、ここではコピーでもなく、アクセスがあったことを証明することも容易ではありません。

そもそも、Redditで本当に新しいものはありますか?!?

「いいね!」 2

申し訳ありませんが、そうは思いません。AIはパターンを記憶し、いくつかの関係を築きますが、直感したり、感じたり、真に創造したりすることはできません。

AIは人間のように適切に思考せず、時間、感情、人生を認識しません。

ちなみに、あなたの視点の残りの部分には同意します。協力してユースケースを見つけて共有することは、誰にとっても良いことです(少なくとも、感じたり、直感したり、創造したりする方法を学ばない人々にとっては避けられないように思われる職を失わないためには)。

全体的な状況は、産業「革命」といくつかのディストピア映画を思い出させます :slight_smile:

「いいね!」 2

あなたの意見に反論させていただきます。なぜなら、あなたは私の言いたいことを見落としているからです。

私が「類似」という言葉を使ったのは、それがデータの内容をそのままコピーして保存するのではなく、人間と同じように特徴によって物事を識別する方法を開発しているからです。私が指摘しているのはその区別であり、論理的にも法的にも重要な区別です。

感情や気分はこの議論とは無関係です。話題は知識の保存と再現です。そしてその話題に関して、AIは人間がモデルを訓練し、それを使用するのとほぼ同様のテクニックを使用していることは間違いありません。

そして、この分野での開発はこのように行われました。人間の脳でニューラルネットワークがどのように機能するかを近似したモデルを作成し、それをスケールアップしました。すると、驚くべきことに、それは人間と非常に似た振る舞いを始めました。これまでのどの自然言語モデルよりも人間らしくなりました。これは私の主張をほぼ証明しています。

「いいね!」 3

人間に関係することなので不可能です :slight_smile:

(おそらくそれがOPの動機でしょう)

私たちはまだ意見が異なることができ、私はそれ以上踏み込みませんでした。あなたを尊敬しており、ただ私の見解を共有しています。

「いいね!」 2

ロールスロイスの方が良い車だと主張しているが、それでも車であることには変わりない。

AIは今や、人間と非常に似た振る舞いをする段階に達した。非常に洗練された振る舞いが現れているが、それは科学者たちが人間の学習手法を模倣しようとしてきたからであり、偶然ではない。

もちろん、考慮すべき他のレイヤーもあり、感情はその一つにすぎない(もう一つは「エゴ」という概念であり、人間の感覚情報、さらには前庭感覚でさえも「エゴ」の知覚に不可欠だと考えられている)、しかし、これは私の意見では、ここでの議論を変えるものではない。

「いいね!」 2

いいえ、私はAIは人間のように学習できないと言っただけです(人間のように学習するのではなく、人間のように振る舞うことについてではありません)。それはまったく可能ではなく、考慮すべき重要なことだと思います。

そして、公開データは公開であることに同意します。そして、違いがあることは私にとってまったく問題ありません。それが私たちを人間(AIではなく)たらしめているのです😬

「いいね!」 2

これは私の意見では、まったく間違っています。
この分野で達成された進歩は、AIが人間のように(より多く)学習しているからに他なりません。

「いいね!」 3

概念的なレイヤーでのみ、もっとたくさんあります(!)

@StephaneFe なぜ「AIトレーニングプロセス」を制限しようとしているのか教えていただけますか?(それは人間の共感です🧡)

「いいね!」 2

もっとたくさんあることを主張したことは一度もありませんか?

私はただ一つの中心的な区別をしています。

それは、AIが(私たちと同じように)特徴から学習しており、正確な情報をコピーしているわけではないということです。それは、区別をするために、完全な詳細に頼るのではなく、一般化することを学んでいます。

そのため、完全な作品を高解像度で、逐語的に保存する必要はありません。

疑いなく、まだ組み込まれていない学習技術はたくさんありますが、この技術は非常に効果的です。

「いいね!」 2

なぜではなく、どのようにに焦点を当てることができますか?

トピックは、私たちのデータが使用されるのを防ぐことが正当化されるかどうかを議論することではなく、それをどのように行うかです。

一般的にスクレイピングを防ぐ効果的な方法はありますか?例えば、ほとんどのコンテンツにアクセスするためにサインインを要求するなどです。

「いいね!」 9

道徳的にも技術的にも正当化されると思います。

1930年代に書かれたジャズソングが著作権の対象となっていることは、音楽の多くの特徴は誰も所有すべきではない本質的に人間的な現象であると主張できるのに、忌まわしいことだとさえ思います。例えば「五度圏」を考えてみてください。これは音楽における暗黙の構造であり、50年代のシンプルな3コードのロックソングから非常に洗練されたジャズチューンまで、多くの曲を形成するのに役立ちます。

そして私が提案したように、ここでは著作権で保護された素材をそのまま保存して繰り返すことについて話しているのではありません。

ほとんどの音楽が著作権の対象となっているという理由だけで、AIが五度圏のような音楽の特徴を使用するのを防ぐのはばかげています!

その音楽の作者は人間という条件から大いに恩恵を受け、すでにかなりの利益を得ていると主張できます。なぜ大孫が、それ自体が一般知識に基づいた祖先の作品からお金を稼ぐのか、私にはわかりません。

「いいね!」 5

この件については専門家ではありませんが、サイトが公開されていない場合、クローラーはコンテンツにアクセスできないと思いますので、それが可能な選択肢であれば最も効果的な方法かもしれません。

「いいね!」 9

全くそうではありません。これらのツールは、ある意味では生物学的なニューラルコンセプトに触発されていますが、実際の実装においては機能的に類似していません。これは些細なことのように聞こえるかもしれませんが、哲学的にも説得力があるように見えるため、非常に重要だと思います。類推はそのような点で非常に危険になり得ます。

計算ニューラルネットワークが「私たちと同じようなパターン学習」をしていない具体的な方法は以下の通りです。

  • 私たちのニューロンは局所的かつ多次元的に接続されており、一部は密なクラスター、他は接続が少ない状態です。ニューラルネットワークは通常、層状に配置され、各層は完全に相互接続されているか、意図的に設計された「畳み込み」層です。
  • 生物学的な脳は非同期で動作し、ニューロンは異なる速度で発火し、その頻度自体が情報を持っています。ニューラルネットワークは基本的に大規模な並列処理です。(だからこそ、GPGPUコンピューティングに非常に適しているのです。)
  • ニューロンは計算と記憶の両方を担当します。独立したストレージや検索、または関数実行はありません。これだけでも、非常に異なる 種類 の処理システムになります。
  • 奇妙なことに、脳の通信はコンピューターで行っていることよりも 二進法的 です。ニューロンは発火するかしないかですが、「人工ニューロン」は通常、連続値(浮動小数点数として表現)の範囲を入力および出力します。(これも、脳が機能すると理解している方法とは全く似ていない処理です。)
  • 学習の仕組みが異なります。人間の学習では、接続 が実際に変化します。(これはあまりよく理解していません。)ニューラルネットワークでは、アーキテクチャが選択され固定されており、「学習」は重みを調整することです。(皮肉なことに、これも本当はあまりよく理解していません。)

こちらの記事も非常に参考になります: What Is ChatGPT Doing … and Why Does It Work?—Stephen Wolfram Writings

「いいね!」 5

具体的には、それは決して一般化を「学習」しているわけではありません。むしろ、一般化しているように見える回答を生成する能力を持つように「作成」されているのです。

しかし、実際には全く一般化できません。

ChatGPTを使った興味深い演習の一つは、掛け算について尋ねることです。それは真剣に、筆算のアルゴリズムを理解していると主張するでしょう。実際に、2桁または3桁の数字の掛け算を依頼すると、おそらく(しかし、実際には確実ではありません!)正しい答えを出すでしょう。しかし、5桁または6桁の数字を試してみてください。数字の桁数は正しいように見えますが、実際には正しくありません。

説明を求めると、アルゴリズムに従ったと述べ、計算過程を示すように求めると、それは示されますが、それは正しい答えの「形をした」ナンセンスです。数分前に自信を持って行った単桁の掛け算と同じことであるこれらのステップの中に、完全に間違った単桁の掛け算さえ見つかるかもしれません。それは、実際には何も「一般化」していないため、数分前に自信を持って行った単桁の掛け算と同じことであるこれらのステップが、実際には同じものであることを「知りません」。

そして、数学はここでは特別なものではありません。それは、少しカーテンをめくるのを容易にするだけです。詩を書かせようとする場合でも、同じ基本的なことが起こります。

誤解しないでください!今日存在するAIでも、素晴らしいことができると私は信じています。しかし、比喩に基づいてポリシーを形成するのはやめましょう。

「いいね!」 6

そうではありません。それらは単語がどのように接続されているかの確率を学習しており、それが事実上のコピー&ペーストにつながります。

私たちは知識を処理することを学んでいます。

「いいね!」 1