コミュニティコンテンツがChatGPTのようなLLMの学習に使われるのを防ぐには?

これは非常に広範な修辞的な論点であり、その含意を見落としていると思います。

あえて言わせてもらうと、あなたの論理的プロセスは、AI/ChatGPTの現在のイテレーション以前の時代に行われたものであり、それは古い常識がまかり通っていた空間でした。

今日、同じ分野にいる人々は、AIという新しい注目のパラダイムシフトを起こす新しいショー(AI)を持っており、それは無限のXファクター(潜在能力と結果の両方において、同等の度合いで)を約束するように見えます。

AIがそれらすべてにアクセスした場合、過去の意思決定を inform していたすべての以前の活動と仮定は無効になります。そして、AIに供給するためのデータスクレイピングが3年、あるいは5年以上前から行われていたことを示唆する逸話がオンライン上で十分に見つかります。DeepMindの場合、Googleがそれを購入した2014年頃まで遡るかもしれません(おそらく、フォレンジックなログサンプルのふるい分けがこれを証明できるかもしれませんが、あるいはこれを防ぐために隠蔽されているのかもしれません)。これを比較的真実と見なすと、技術的なリードタイムにおける問題の深刻さがわかります。

すべてのコンテンツがスクラップされた可能性があり、手遅れかもしれませんが、私はそれらを私の懸念と表明に組み込みました。ここで言及しているのは、前述したように、時間機械のような解決策はなく、現在および将来の解決策を inform するのは思慮深さの力だけだからです。

申し訳ありませんが、何も理解できません。

その質問の含意は、多くのニーズに対して他のすべてを上回る解決策と見なされる、町に説得力のある新しい選択肢、つまりAI(ChatGPT搭載技術)が登場したということでした。

LLMがフォーラムで得られるすべてを提供してくれるから、誰もフォーラムを立ち上げようとはしない、ということですか?(ちなみに、それはこのスレッドのトピックではありません。)

(誰かに何かをしてほしいなら、問題は何だと考えているのか、そして彼らに何をしてほしいと考えているのかを明確にする必要があると思います。あなたは深く気にしているようですが、私はあなたが何を望んでいるのか分かりません。誰にでもそうであるように、私の時間とエネルギーは限られているので、あなたの考えを理解するために一生懸命働くつもりはありません。)

追記:

このスレッドの現在の「AI」による要約、後世のために

ChatGPTのような言語モデルのトレーニングにコミュニティコンテンツが使用されるのを防ぐことについてのフォーラムディスカッションは、ログインを要求してコンテンツを非公開にする、robots.txtまたはDiscourseの設定でブロックされたクローラーユーザーエージェントによってスクレイパーをブロックする、あるいはサイトを完全にオープンインターネットから削除することを中心に展開しています。公開データの使用を防ぐことに反対し、それが進歩の避けられない一部であると信じている人もいますが、コンテンツ作成者は自分の作品がどのように使用されるかについてより多くの制御を持つべきだと主張する人もいます。この議論は、情報と創造性の所有権に関する哲学的な問題を探求するとともに、AIシステムによるデータの使用を軽減するための実践的なヒントを提供します。

「いいね!」 4

突然、ほとんどの人が抵抗できないような、古いやり方を選ばない新しい理由が生まれました。


私はOPではありませんが、OPの気持ちが今ならさらにわかります。

  1. 誰も真剣に受け止めていなかったOPを真剣に受け止めること、

そして

  1. その理由として、このような出来事にはすべて、深刻なプラスとマイナスの影響があり、私はそのマイナスの側面が真剣に認識されているとは感じませんし、感知もできません。むしろ、認識されているプラスの側面への偏りがあり、そのため、評価したり軽減したりする活動、つまりプラットフォームレベルで影響を受けている人々を支援する活動がありません。

繰り返しになりますが、私はOPではありませんが、OPの問題は、公にされているすべての議論の問題です。それはまた、ネットにとってシステム的な存亡の危機であり、プラットフォームに依存しないものです。あるいは

それは単なる「クールな新しいおもちゃ」であり、実用的に遊ぶためのものです。

後者は文脈において真剣ではありません。それは意図的に盲目です。私は個人的にそれを無責任だと感じます。それがAIパラダイムをさらに危険なものにしています。

単一のトピックでは解決しません。リーダーシップが必要です。私は@samと@codinghorrorから始めましたが、その時にすべてのモデレーションのカタクリズムが始まりました。一度だけ行われ、乱用されませんでしたが、他の人々はより良く考え、最善を知っているでしょう。AIが本当にそのフックを掴むまで待ちましょう。 :melting_face:

結論:この問題は非常に真剣に受け止める必要があります。

そのため、独自のカテゴリが必要になるかもしれません。それほど大きな問題です。

解決策ではなく、破壊的なものですが、これまでのところ、戦略が - login_required (設定) でドアをロックすることである場合、そのシナリオでネガティブなトラフィックヒットの影響を軽減するために、検索トラフィックに依存している場合は、何かを見ることができるがすべてではないものを持つことです。

WP フロントエンド / Discourse login_required サイト
(より多くの作業、より多くのホスティング費用、サポートなど)

役立つが、この問題に正確に焦点を当てて構築されていないもの:

公開ページ 専用のリストページで開発され、設定オプションがあれば、ユーザーが登録して続きを読むように促す公開フロントコンテンツの一部を見ることができるブリッジランディングページとして機能する可能性があります。

– 公開ページリストを独自のページ /pub で許可する (ホームページにする)
– 公開ページを login_require ページでリストすることを許可する
login_required ページでカスタムカテゴリまたは最新情報を許可する

この問題の解決策を探しているときに、数日前に 公開ページ という機能を見つけました。AI の難問以前にも、公開ページ向けの同様のリスト機能が以前のユーザーからリクエストされていたと思います。

公開ページをより設定可能に処理することは、公開 facing の接続ポイントを解決する必要がある場合、WordPress フロントエンド全体を追加するよりも、私の考えではより好ましいです。

トピックの最初の投稿のみをリストする

トピックの最初の投稿のみを表示し、コメントを読むにはログインが必要です。これは少なくとも一度は同様の提案を見たことがありますが、却下されましたが、この文脈では再評価が必要です。

また、これらの提案は不完全なリストとして考慮してください。問題の一部に対する潜在的な応急処置にすぎず、すべてではありません。


Meanwhile I’ll revert to terrorising this topic with loads of feelz :slight_smile: How are we all feeling about ChatGPT and other LLMs and how they'll impact forums?

「いいね!」 1

前回の返信から、パブリックコンテンツとプライベートコンテンツを組み合わせて問題に対処するという、ほぼ同じ結論に至っていることがわかりました。返信を読む前に以下の投稿を作成しました。それでも公開して、その主張を補強するつもりです。

OPを真剣に受け止めます。それは正当な質問をしているからであり、また、LLMがインターネットにどのように影響するかについて、その作者と同じ懸念を抱いている可能性があるからです。もしあなたの懸念を正しく理解しているのであれば、私たちはインターネットの仕組みにおける根本的な変化を目撃しているというあなたの意見に同意すると思います。人々が直接サイトを訪れる代わりに、LLMがインターネットのパブリック部分と対話するためのインターフェースになるでしょう。これには、ここで有用に対処できない可能性のある、あらゆる種類の含意があります。

ここで対処できるのは、DiscourseのコンテンツがLLMのトレーニングに使用されるのを防ぐ方法についての質問です。Discourseはいくつかの可能なアプローチを提供しています。

最初のアプローチは弱いものです。サイトを公開したまま、blocked crawler user agentsサイト設定を使用してデータスクレイピングに使用されているユーザーエージェントをブロックしようとします。これに加えて、データスクレイピングを行っているテクノロジー企業に対する法的異議申し立てに関与することもできます。

より強力なアプローチは、サイト全体またはその一部をプライベートにすることです。これは、login requiredサイト設定、またはカテゴリセキュリティ設定を使用して行うことができます。

上記のアプローチに対する主な反対意見は、人々が検索エンジンでサイトを発見できるようにしたいということです。これに対処する方法があると思います。最も簡単な方法は、プライベートなDiscourseフォーラムに関連付けられた、公開されたSEO最適化ブログを持つことです。より複雑な解決策は、Discourseが、トピックのOPの一部を公開し、トピックの大部分はDiscourseグループのメンバーのみがアクセスできるようにする機能を提供することです。これは、Substackのようなサービスが、有料購読者のみが利用できるコンテンツをどのように扱うかに似ています。匿名ユーザーやクローラーがアクセスできるコンテンツの一部を表示し、その後サインアップCTAを表示します。

したがって、LLMがインターネットにどのように影響するかについての私の懸念に加えて、コンテンツクリエイターの資金調達の新しい方法を模索する機会を見ていると思います。

「いいね!」 7

この設定はどこにありますか?

「いいね!」 2

あなたの質問は「公開インターネットに掲載される可能性のあるものを誰が作成するのか?」ということです。

公開インターネットで質問すると、あなたの意見に賛同する人は誰もあなたの質問に答えることができません。

「いいね!」 6

このトピックはうんざりするほど長引いています。AIベースの要約でトピックはうまくカバーされています。一番上までスクロールしてクリックしてください。

今後3ヶ月間、閉鎖します。

「いいね!」 12

このトピックは90日後に自動的に開かれました。