コミュニティコンテンツがChatGPTのようなLLMの学習に使われるのを防ぐには？

merefield · 2023 年 5 月 15 日午前 6:14

これは少々苛立たしいですね。

私は「類似」という言葉をやや緩く使っていましたが、それは確かに有効な使い方であり、ある一つの概念に関してのみ、特定の点を支持するために使用しました。それは明白だと思ったのですが？

類似性を指摘した私のポイントは、「特徴」の抽出と照合という概念に限定されており、それ以外のものではありませんでした。これは、学習概念と、コピーをそのまま記憶することとの区別を描くためでした。

大きな違いがあることも十分に承知しています。

人間の頭がデータセンターに似ていないことを、あなたはご存知ですよね？

人間の脳では、特徴の抽出と照合が行われていないとでも言うのですか？

なぜなら、それがまさにそれを行っていることだからです：

「特徴検出器の学習
知覚システムが行動を制御するために必要な細かい区別を行えるようにするためには、感覚皮質は、複数の層の特徴検出ニューロンのシナプス結合重みを適応させる効率的な方法を必要とします。」

Feature detection (nervous system) - Wikipedia も参照してください。

それは矛盾しています。それは全くコピー＆ペーストではなく、それが私のポイントの核心です。

損失圧縮ですらないと言えるかもしれません：

はい、できます。そして再び、注意点ですが：汗：、私たちほどではありません。

ChatGPTは一般化しています。それがパターンマッチング、すなわち特徴抽出です！それは、文法規則に合致する単語を適切な順序で構成することができます。それは複雑な特徴セットを「学習」し、主題に関わらず文法的に意味のある文章を構築することができます。それは、考えられるすべての単語の組み合わせを保存し、毎回正確に一致するものを繰り返し出力しているわけではありません。つまり、コピー＆ペーストではありません！それは単なる一例です。それが示す応答は、洗練されていく様子を示しています。

しかし、確かに数学を「理解」するほど洗練されてはいません。まだです。（そして、この現在の技術では、おそらく今後もそうならないかもしれません？）

脳の洗練度には及ばないこと、その範囲が限定的であること、そしてそれらすべてを物理的に実装する方法が非常に異なることは十分に認識しています。しかし、それは私のポイントを無効にするものではありません…

…それは具体的なものでした！

次回は、この不必要なノイズを避けるために、細心の注意を払って注意点を明記するようにします。

JammyDodger · 2023 年 5 月 15 日午前 9:56

哲学は魅力的で議論に値するものですが、OPはこれを軽減する方法についての具体的なヒントを探していると思います。トピックに沿って、それらに集中していただけますか？

Ed_S · 2023 年 5 月 15 日午後 12:56

まったく同感です！しかし、話が逸れてしまいました…

その通りです。データプライバシーとセキュリティに関する講義には、LLMの出力でトレーニングデータが公開されるという現実的なリスクがあり、それが起こるとプライバシーの問題や著作権の問題につながる可能性があります。Google AIのブログ記事によると、その場合、プライバシーの問題や著作権の問題が発生する可能性があります。適切なツールは、一方ではデータ保護法、もう一方では著作権法、したがってライセンスであると考えます。

利用規約で、データスクレイピング、大規模ダウンロード、機械学習のトレーニングデータへの含めることなどの行為を禁止することは、損害はないと思います。しかし、執行のためには、コンテンツのライセンスにいくつかの明確さがあることをお勧めします。効果のためには、ほとんどのDiscourseインスタンスが自身を保護するための同じアプローチを持つように、適切な明確なライセンスがデフォルトのインストールの一部であるべきです。

EFFのような団体に、適切なポリシーのテンプレートを探すでしょう。

Ed_S · 2023 年 5 月 15 日午後 4:26

ああ、重要なことを付け加えます。フォーラムのコンテンツを制限的にライセンス供与すると、最悪の場合、フォーラムを新しいプラットフォームに移行することが困難または不可能になる可能性があります。そうしないでください！

（ソーシャルな側面もありますが、それは些細なことかもしれません。フォーラムの利用規約で、個人の投稿がフォーラムの所有物になると記載されている場合、一部の人は敬遠するでしょう。しかし、何かが必要になります。退会したユーザーがすべての投稿を削除するように要求できることを望まないでしょう。これはここでのトピックとは異なる問題ですが、利用規約が重要であることを示しています。）

Jagster · 2023 年 5 月 15 日午後 6:37

少なくとも西洋諸国では、そのような規約は全く無意味であり、プラットフォームの所有者が全く知識がないことしか示していません。

Mevo · 2023 年 5 月 15 日午後 10:34

しかし、なぜそうしたいのかは（非常に）興味深いですね。
なぜそれをしたいのですか？もちろん、それをするためです。
しかし、なぜですか？それは質問の延長線上にあるものです。

これは良い質問です。そしてフォーラムのユーザー自身が、ここではまさに「本」になりつつあります。

多くのサイトで行われていると思われる方法の一つは、ユーザーの行動を分析することです。「あまりにも多くの」ページがスキャンされた場合、特に「あまりにも速く」スキャンされた場合は、おそらくスクレイピングでしょう。そして、例えば「ホスティングIPアドレス」を使用していること（居住用IPアドレスではなく）、「ヘッドレス」ブラウザを使用していること、Cookieが受け入れられないことなど、いくつかのパラメータを追加することができます。

ですから、はい、これらすべてを定義し、微調整して、できるだけ多くのスクレイピングを技術的にブロックしようとすることができます。通常のやり方は、ボットのような行動が疑われる場合にCAPTCHAを要求することです。これにより、システムが単にユーザーをブロックするだけでは不可能な、人間が続行できるようになります。

もちろん、これらはすべて、それでもやりたい人がいれば回避できます。特定されるのを避け、多くの異なるユーザーとして表示され、多くのフロントでより正当に見え、居住用IPをローテーションするなどです。システムがブロックするように設計されているものをスクレイピングする方法を知ることは、ほとんどスポーツのようなものです。それを非常に得意とする人もいます。それを行うためのリソースはたくさんあります。

ChatGPTなどの背後にいる人々のような正当な組織は、おそらくこのルートをたどらないでしょう。彼らはまた、利用規約を尊重し、まっすぐなユーザーエージェントで来る可能性が高いでしょう。それらを思いとどまらせるには、「法的」かつ単純な、禁止されていると述べるだけで十分かもしれません。これは、法的なことや率直さに関心のない人々には効果がありません。

かなり簡単な解決策は、ログインせずにゲストとして表示できる量を制限することです。しかし、繰り返しになりますが、多くの場合と同様に、本当にやりたいと思っている人を、動機があれば阻止するのは非常に困難です。後者は、この問題でターゲットにすべき重要な人々ではないかもしれません。

pfaffman · 2023 年 5 月 17 日午前 7:56

それは他のクローラーと同じように制御されていると思います。ユーザーエージェントでアクセスを拒否する設定があります。クローラーが何をしているかを示すユーザーエージェントを使用している場合、それを制御できます。

GPTが最初のデータセットをどこから取得したのか、または新しいデータをどこから取得するのかは私には明確ではありません。ユーザーエージェントが何であるかを特定する必要があると思います。

Jagster · 2023 年 5 月 17 日午前 7:59

robots.txt 以外、ファイアウォールレベルでも機能しますか？

satonotdead · 2023 年 5 月 17 日午前 10:25

インターネットでの議論は日単位でカウントされ、そのスレッドと、私の正当な質問（どのようにを探求するため）への応答は明らかに前置きです。

残念ながら、検索は単なるWebラッパーであるため、現在はその方法はありません。
https://answers.microsoft.com/en-us/bing/forum/all/opt-out-of-bing-chatgpt-ai/8d76e65b-6c8b-42ab-be4b-39e433045703

User-agent: OpenAI Disallow: /

または

<meta name='robots' content='noindex, nofollow'>

Jagster · 2023 年 5 月 17 日午前 10:47

そして、そのルールは確実に守られるのでしょうか？

anon48433008 · 2023 年 5 月 17 日午前 11:05

これは素晴らしいトピックだと思います。私の見方では、ここでは許可されるギリギリのラインですが、それでも許可されます。

これでうまくまとまっていると思います。

笑、それはターミネーターの世界に入り込んでいますね。AIは自分のやりたいことをやるのでしょうか？

はい、そうなるという例を挙げたいと思います。

多くの宗教は聖書に基づいています。そして聖書は人間の伝統に基づいています。

ですから、創造されたものが創造者を超えることができるのです。

いつか、私たちが止められなければ、私たちは新しい聖書の「書」になるかもしれません。

皆さん、弟子になれるかもしれませんね

ウロボロス

それはツールかおもちゃです。そうではなくなるまでは。

Jagster · 2023 年 5 月 17 日午前 11:42

面白いジョークですが、現実世界では、ほとんどのボットはrobots.txtのルールに従っていません。それは単なる提案であり、ファイアウォールのようなものではありません。

Mevo · 2023 年 5 月 17 日午後 5:50

robots.txt はクローラー自身のための指示です。
クローラーがそれに従うという仮定に依存しています。「確かに」そうなるという保証はありません。

ウェブサーバーレベルでユーザーエージェントをブロックできます。多くの場合、Discourse では NGINX が使用されます。
ここでは、ウェブサーバーはこれらのユーザーエージェントにコンテンツを提供しません。これは、ウェブサイトの NGINX 設定ファイルに数行追加することで行われます。「nginx block user agent」などの検索を行ってください。

クローラーが正直なユーザーエージェントを表示する場合、「確かに」そうなります。

mattdm · 2023 年 5 月 17 日午後 5:53

それは全く「確か」ではありません。

Mevo · 2023 年 5 月 17 日午後 8:33

確実にブロックしたいユーザーエージェントをブロックします
（編集：NGINXを上記のように使用した場合であり、robots.txtにのみ依存した場合ではありません）

悪意のあるアクターが正しく自己識別しない場合、問題全体に対する確実な解決策ではありません。しかし、あなたはそれを完全に理解していると思います。

Jagster · 2023 年 5 月 17 日午後 9:22

これは少し退屈になってきました…しかし、そうではありません。Googleでさえrobots.txtに従わない状況はたくさんあります。

これは依然として提案であり、誰もそれに頼るべきではありません。

satonotdead · 2023 年 5 月 19 日午前 4:37

OK、同じ考えです。

本当に怖かった返信が2件あり、支払いたくありませんが、遅かれ早かれ、稼働中のものには必須になる可能性があります。

（クレジットカード番号は入力せず、常に一時的なものを使用しています。少なくとも、追跡から少し外れるために）

しかし、人々は支払い、4倍、10倍、そして100倍、1日24ドルに跳ね上がっています。私は市場で直接働いていますが、それは現実離れしています。

私は通常、ウェブを検索するためにこのデバイスを使用しません（いくつかの大企業のキャプチャを選択しています）。Linuxでより安全でプライベートにブラウジングできると感じているためです。誰かが同様のことを考えているのではないかと疑っていますが、あなたの場合はそうでないとしても尊重します。

オープンソースも一種の管理下にあります。少し神経質に聞こえるかもしれませんが、私は私たちのコミュニティでの人間の会話を好み、私たちは限界について議論し、誰もどこで止まるか分からないものをブロックする方法を使用するかもしれません。

幻覚が注入され、人々は自分自身をクローンしています。それは情報を壊し、多くの制御を共同で広める可能性があります。

限界、価値観、プライバシーについて議論するのに良い時期かもしれません。検閲したり、苦情を言ったり、良い議論を避けたりするのではなく。

このトピックで問題がなければ、私のポイントと、私の確実ではないが現実的なポイントについての深い調査を共有します。

OpenAI（オープンではない）なしのAIは、コミュニティにとって可能でより良いツールになり得るでしょうか？

OPと思われる場合は移動してください。または、必要に応じてマージしてください。

Brandon007 · 2023 年 5 月 26 日午後 11:16

フォーラムにこのコンセプトを適応できるか分かりませんが、ブログの.htaccessファイルでこのコードを実行しています。

RewriteCond %{HTTP_USER_AGENT} ^.*(aolbuild|baidu|bingbot|bingpreview|msnbot|duckduckgo|mediapartners-google|googlebot|Googlebot|adsbot-google|teoma|slurp|yandex|Baiduspider|facebookexternalhit|applebot|FeedFetcher-Google).*$ [NC]	
RewriteRule ^/?REDIRECT-THIS-URL?$\t/TO-THIS-URL\t[L,R=301,NC]

ここでのアイデアは、Xページを訪問するこれらのユーザーエージェントのみをリダイレクトすることです。私の場合は、現在のイベント記事を訪問する上記のユーザーエージェントをリダイレクトし、聖書のコンテンツはすべてに利用可能にし続けます。SEOの目的でこれを行いましたが、違いがありました。AIボットをブロックするためにこれのようなものを使用する方法があるかもしれません。

私のコードの問題は、URLごとに別のコード行が必要になることです。

Mevo · 2023 年 5 月 27 日午前 10:42

はい。これは、Webサーバーが特定のユーザーエージェントを特定の処理する方法です。これは、私が上記で説明したこととほぼ同じです。ボットが正しいユーザーエージェントで自身を識別する限り、機能します。

stance455 · 2023 年 6 月 10 日午前 12:11

このトピックに便乗する形になりますが、ChatGPTのユーザーエージェントはクローラーバージョンを取得しているかご存知の方はいらっしゃいますか？おそらくそうではないでしょう…おそらく、「クローラー」のリストに追加すべきでしょう。

トピック		返信	表示
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	103	8328	2025 年 2 月 13 日
What is stopping you from trying out Discourse AI? Community Building ai	35	1804	2025 年 8 月 23 日
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	36	1443	2025 年 11 月 26 日
Is there any AI at the core of standard Discourse? Support	15	1567	2023 年 5 月 31 日
Best practices dealing with Spam users and GPT reply posts Community Building	9	929	2023 年 7 月 31 日

コミュニティコンテンツがChatGPTのようなLLMの学習に使われるのを防ぐには？

関連トピック