コミュニティコンテンツがChatGPTのようなLLMの学習に使われるのを防ぐには？

agemo · 2023 年 7 月 6 日午前 9:33

プライベートにすることによって、すべてのボットだけでなく、LLM、あるいは「AIボット」と呼ぶものもブロックできるという点で合意はありますか？

正直なところ、少なくとも1つのトピックでこの問題に関わり、ChatGPT検索Discourseのような他の多くのソフトウェア提供サービスを検索した結果、IMHOでは、ChatGPTの脅威的かつ破壊的な側面を真剣に受け止めていないようです。AIを一切使用したくないサイトオーナーや管理者にサポートと機能を提供することについて、真剣な検討が必要です。

ChatGPTとその同義語は、両端に火がついた導火線のような状況の1つです。

Bas · 2023 年 7 月 6 日午前 9:39

はい、それはかなり確実な方法です。
完全に悪意のあるアクターは引き続き登録できますが、すべての正当なクローラーは削除されるはずです。

注：共同創設者を数名タグ付けしたコメントは削除しました。これは過剰だと思われます。

agemo · 2023 年 7 月 6 日午前 9:55

時間が経てば、それが過剰ではないことがわかります。目を覚ます必要があります。私は、業界全体で観察されている大きな盲点につながる偏見を見ますが、私の知る限り、Discourseも同様です。

唯一の選択肢がフォーラム全体を再び非公開にすることであるなら、市場は一方向だけでなく、多くの点で根本的に変化しており、運用レベルで何らかのレベルで考慮する必要があります。

過剰なのはChatGPTとその影響です。貪欲という言葉では、起こっていることの半分も説明できません。どこにでもあります。

これは、すべてのフォーラムと人間の創造物すべてを根本的に損ないます。あなたは今、快適に細部や哲学的な「もしも」をいじっているかもしれませんが、その時間は過ぎました。それは今、野生に放たれています。世界中のウェブに足を踏み入れているすべての人々が決定を下す必要があります。

Bas · 2023 年 7 月 6 日午前 9:59

私が言ったこと（そして削除したこと）は、純粋に技術的な質問をしてからわずか17時間後に、2人の共同創業者/CEOにフォローアップを促すことでした。

LLMに関するあなたの懸念は現実的で理解できるものであり、たとえ私がそれに同意しないとしてもです。

agemo · 2023 年 7 月 6 日午前 11:23

しかし、その緊急性が理解されていないことは承知しています。技術的な質問への回答が、人間の言葉では技術的とは言えないほど重大な結果をもたらす可能性があるのです。

多くの影響があるにもかかわらず、誰もが事態を軽視しており、あらゆるレベルでの懸念の欠如を示しています。

その回答ありがとうございます。

私たちが手にするのは、木の実を割るためのハンマーだけなのでしょうか？それとも、木の実が実際にはゼロポイントの無限の木の実であり、私たちのハンマーは本当に羽の想像力の産物に過ぎないのでしょうか？

意味は通じますか？

pfaffman · 2023 年 7 月 7 日午前 5:18

理解していただけたと思います。

サイトで匿名ユーザーが情報を読み取れるようにしている場合、誰がその情報を取得し、それをどうするかを制御することはできません。私の理解では、Googleは最近、Googleが読み取れるものはすべてAIに使用できると述べるポリシーを変更しました。

サイトでログインユーザーがサイトを読み取れるようにしている場合、それらのユーザーがそれを行うことを制御することはできません。

サイトでユーザーがログインできるようにしている場合、資格情報を使用している人がアカウントを作成した人であるとは限りません。誰もあなたのデータをAIで使用できないようにしたい場合は、ネットワーク接続を切断するだけで済みます。

Jagster · 2023 年 7 月 7 日午前 5:46

リバースプロキシを使用する場合、ある程度のコントロールは可能です。ただし、相手がユーザーエージェントを変更したり、偽のユーザーエージェントを使用したり（あるいは、広く使われているIPアドレスを使用している場合、それは困難で不安定な方法ですが）しない限りは。

sam · 2023 年 7 月 7 日午前 7:14

人間の目には見えるが、地球上のどのカメラでも撮影できない魔法の本を開発できたら教えてください。

この魔法の技術について非常に興味があります。

Discourseプラットフォームで開催しているフォーラムについては、フォーラムのルールに従ってください。ルールによっては自動的に強制できるものとできないものがあります（例：青い目の人はこのフォーラムを読むことができません）。

agemo · 2023 年 7 月 7 日午前 8:54

誰もこの事態を真剣に受け止めていないのは、この出来事の真の規模を認め、理解した上で、自分の管理下にある範囲で実際に対処しなければならないことを避けたいからだと思います。そして、AIをソフトウェアに組み込むことで、市場が期待する通りのパフォーマンスを発揮し、最先端であり、不可欠であると考えて、終末への競争に参加する方が簡単なのです。これは、過去数十年にわたる過剰な道徳的相対主義が、あらゆるレベルで自由にまかり通った結果、物事が大きく損なわれ、テクノロジーがそれを電光石火の速さで実現させているのです。まるで、\n\n誰もが自分がここにいる理由を忘れてしまったかのようです。

HAWK · 2023 年 7 月 7 日午前 9:06

少しペースを落としましょう。

皆様のご懸念は理解しておりますが、我々がそれを共有していないというだけで、それはそれで構いません。意見が異なることは認められます。我々は情報に基づいた意思決定を行っています。誰も皆様にそれを強制しているわけではありません。

agemo · 2023 年 7 月 7 日午前 9:08

@satonotdead その通りです

simon · 2023 年 7 月 7 日午後 5:31

OpenAIは、モデルのトレーニングにいくつかのデータセットを利用しています。Discourseのコンテンツが含まれている可能性が最も高いデータセットは、Common Crawlデータセットをフィルタリングしたバージョンです。詳細は、こちらのドキュメントのセクション2.2を参照してください: https://arxiv.org/pdf/2005.14165.pdf。Common Crawlは、サイトをクロールする際にCCBot/2.0ユーザーエージェント文字列を使用します。

Discourseサイトを公開にアクセス可能に保ちつつ、将来的にCommon Crawlデータセットにコンテンツが追加されるのを防ぎたい場合は、Discourseサイトの「ブロックされたクローラーユーザーエージェント」設定にCCBotを追加できます。Common Crawlユーザーエージェントをブロックすることには、潜在的なデメリットがあることに注意してください (How to Block OpenAI ChatGPT From Using Your Website Content):

Common Crawlを含む多くのデータセットは、URLをフィルタリングおよび分類して、広告のターゲットにするウェブサイトのリストを作成するために企業によって使用される可能性があります。

Discourseにおける「ブロックされたクローラーユーザーエージェント」設定の使用方法については、こちらを参照してください: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub

Common Crawlはrobots.txtファイルのルールを尊重するため、ファイルに以下のルールを追加してブロックすることも可能です:

User-agent: CCBot
Disallow: /

ChatGPTプラグインは、ユーザーに代わってリクエストを行う際にChatGPT-Userユーザーエージェントを使用します。このユーザーエージェントは、トレーニングデータセットを作成するためにウェブをクロールする目的では使用されません: https://platform.openai.com/docs/plugins/bot。このユーザーエージェントも、「ブロックされたクローラーユーザーエージェント」設定に追加する (またはrobots.txtファイルにDisallowルールを追加する) ことでブロックできます。

他の人が指摘しているように、サイトがLLMのトレーニングに使用されるのを防ぐ最も信頼性の高い方法は、「ログイン必須」サイト設定を有効にして、匿名アクセスを防止することです。サイトをさらに強化するために、サイト上のユーザーが人間であり、ボットではない可能性を高めるための措置を講じることができます。そのための可能なアプローチの1つは、Gitcoin Passportのようなサービスをサイトの認証システムと統合することです。オープンソースのGitcoin Passportプラグイン for Discourseがまもなく開発される予定だと考えています。

サイト上のユーザーが人間である可能性を高めるための、より技術的でない方法もあるかもしれません。例えば、サイトを「招待制」に設定し、サイトに招待するユーザーが人間であると確信できる理由があることを確認するための措置を講じることができます。

これらのすべてを支える哲学は非常に興味深いと思いますが、このトピックでは深入りしません。

agemo · 2023 年 7 月 7 日午後 7:47

このトピックに真剣かつ深く関わろうとする私の試みが継続的にモデレーションされていることに断固として反対します。スロー・スティックは冗談です。毎回1時間も待たなければなりません。

多くのユーザーによる無数の漂流投稿が残っています。一貫性はない、偏見がある、うーん、少なくともこのユーザーにとっては今のところそのように見えます。個人的には受け止めませんが、この高齢者のようなモデレーションは控えめに言っても息苦しいです。

私は、現在の手紙の最も深刻でひどい状況を高めようとしているだけで、ついに@simonから優れた真剣な投稿を得ました。

素晴らしい、そして的確です。OPや他の人が最初に聞く必要があったのはまさにそれです。多くのオプションは広範な管理セクションに埋もれており、私は個人的にこの機能/オプトインに気づいていませんでした。これでテストできます。デフォルトのカードよりも多くのカスタム情報を持つことができると良いでしょう。カスタムテキストハンドルはそれを処理できますか？誰か知っていますか？

たくさんの感謝。

Falco · 2023 年 7 月 14 日午後 8:26

この記事が正しければ

サイトをオープンインターネットから削除するか、Googleをブロックするか、login_requiredを有効にする必要があります。

awesomerobot · 2023 年 7 月 14 日午後 9:19

クローラーがrobots.txtに従う必要は全くなく、ユーザーエージェントを偽装することは容易であるという点に注意する価値があります。これらの事柄を規制する法律はありません。どれだけ緊急性や真剣さをもってしても、この事実は変わりません。データが使用されることを心配している場合、できることはサイトを非公開にして、トレーニングデータに関する様々な法的手続きの結果を待つことだけです。

simon · 2023 年 7 月 15 日午前 1:06

広告に依存するサイトは収益の減少を経験し、ペイウォールの背後にあるコンテンツがはるかに多く見られるようになると予想されます。インターネットの無料およびオープンな部分の質は低下するでしょう。

Discourse は、ホストされた顧客向けのサブスクリプションサービスをセットアップすることで、このトレンドを実際に活用できる可能性があります。

merefield · 2023 年 7 月 15 日午前 5:41

すでにホストされている一部のティアで利用可能なサブスクリプションプラグインがあります。セルフホストサイトはすでにそれを採用できます。

コンテンツを非表示にする際の注意点は、SEOに影響を与える可能性があるため、新しいユーザーのファネルがどのようなものかによって異なります。

私は個人的に新しいユーザーを獲得するために検索に依存しているため、アカウントの壁の後ろにコンテンツをほとんど置いていません。

多くのサイトでは、まだ発見される必要があります！

Ed_S · 2023 年 7 月 15 日午後 4:17

@agemoさんには、ソフトウェアにおけるAIの利用と、一般の人々のウェブ上でのやり取りがAIのトレーニングに使用されること、という2つの関連する懸念があるように思われます。あなたはそれらのことについて非常に懸念しており、それが起こらないことを望んでいます。

それは理解できます。これらの懸念は多くの人が共有していると思います。

世界には私が懸念しており、違うようになってほしいと思うことがたくさんありますが、ここではそれらを話題にしません。なぜなら、ここでは、あるいはDiscourseの提供物では対処できないからです。もしそれらを話題にし続ければ、迷惑になり、モデレーションを受けることになるかもしれません。

あなたは自分の声が届いていないと感じているのかもしれません。しかし、このスレッドで本当に起こっていることは、他の人々があなたの懸念は対処可能ではない、ここでは、あるいは彼らによって対処可能ではないと考えていることだと思います。何かできることがあるかもしれませんが、それはここの個人ができることではありません。おそらく答えは、大衆運動、キャンペーン、あるいは革命かもしれませんが、ここのモデレーターがそのようなことはトピックから外れていると感じるのは公平だと思います。

agemo · 2023 年 7 月 15 日午後 5:52

それは起こってしまいました。変えられないことです。AIは今や解き放たれ、それが現実です。私は時間を巻き戻すことができるとは一度も提案しませんでした。

モデレーターはこのトピックを理解していると思っていましたが、そうではありませんでした。しかし、彼らは私の貢献をモデレーションし続けています。モデレーションについて話すのはうんざりです。解決策ではなく、彼らはそれを続けたり、他のユーザーもそうしたりします。おそらく彼らは価値を見ていないか、あまりにも快適すぎます。

私の介入以来、このトピックをより解決策に基づいた焦点に引き込もうとしてきましたが、不器用なモデレーションにもかかわらず、ある程度の成果がありました。

あなたは何もできないと思うかもしれませんが、それを見て認識することで：

a) それは深刻である
b) それは緊急である
c) それは焦点が必要である

ことは始まりであり、あなたには自分の反応をコントロールできるが、起こってしまったイベントはコントロールできないということです。それは過去にあり、予測可能な未来にわたって毎日現在に影響を与えています。

他の問題のために派生した解決策を粗雑に使用する以外に提供できる解決策はありません。そのため、AIイベントは人々がそれまでのすべての努力を壊すような立場をとることを強制するため、その提案は壊れます。

直接的な脅威であり、あなたのコンテンツをあなたのそれまでのすべての努力に対して直接競合させるようなものの一部であることを望まないのは非常に自然なことです。しかし、それはそこにとどまりません。

私は、簡単な修辞的な質問（それが修辞的かどうか議論できますが、AIを認めなければなりません）で全体を要約します。

今、なぜ誰もディスコース（または同様のもの）のインスタンスをデプロイすることを検討するのでしょうか？

この問題には非常に多くの懸念があり、時には1つのトピック（OP）が問題のすべての結果の宇宙全体を例示します。そして、これは確かにその1つです。特にディスコースが真の解決策を提供できない場合、それは狭くなるべきではありません。その場合、トピックはその性質上、広く開いているか、「解決策がないため、このトピックは現在閉じられています」のいずれかです。

開くか閉じるか。

これを理解していますか？

これがポイントです。問題に対処する意思がないことが認められた場合、そうしてください。そうでなければ、このトピックは残ります。そして非常に広くなければなりません。このトピックに対するモデレーションの減衰レベルは、それが未知の領域であるため、それが必要です。

もし設定でそれを修正するチェックボックスが1つか2つあったなら、私たちは皆家に帰ることができますが、実際にはまだありません。いくつかの応急処置があるかもしれませんが、それらは「解決済み」の領域にはありません。その点については、誰もが同意すると思います。

OPの懸念とAIの問題、そして管理者がそれをどのように管理する必要があるかに直接対応するために構築された解決策がないため、私のポイントは有効です。

もしあれば、それらを指摘してください。ここに投稿するか、開発中の解決策などを投稿してください。これを理解していますか？

そこには、開発者、ユーザー、そしてすべてを機能させる既存の関係の責任があります。だから、私たちはそれを議論します。必要であれば何度も。

OPが5月に始まった後、過去数回の投稿まで、これがどのように壊れるかの認識がゼロであることを見ます。そして、私はそれを祝いましたが、モデレーションされました。それはジョークです。AIは実際にネットワークを壊しています。再び、ディスコースや同様のプラットフォームをセットアップする意味は何ですか？この問題を、トピックの要求に合った、真剣で誠実で堅牢な方法で議論できないのであれば、それがあなたの答えです。

市場は動いています。すべての資金、注目、熱狂はOpenAI＆Co.の懐に飛び込んでいます。私は、開発者がここで、そして他のどこでも、AIを完全に採用し統合することを選択しているのを見ます。まったく吟味せずに、ゼロです！

これが、OPが隅に追いやられ、イライラし続ける理由です。ディスコースを壊すことが、唯一確実な解決策です。それは解決策ではありません。それは事実上ゲームオーバーです。

開発者がAIにどのように反応しているかについての私の比喩は、修辞的に言えば次のとおりです。ほとんどすべてが、火山の噴火（噴火はイベントです）からの溶岩を収集するためのさまざまなクールなバケツを構築することに忙しいようです。そして、溶岩を収集するためのバケツを構築する反応は、溶岩は火山の神からの贈り物です。それは熱と光をもたらしますが、それは物事を非常に速く燃やします。そして、バケツがなければ、あなたが持っているビットを制御することはできませんが、バケツはこの事実を隠します。安全で、クールで、きちんとしているように見えます、今のところは。

いいえ。それは正しくありません。モデレーターが間違っている理由と、それが彼らが考えるよりもはるかに深刻である理由を概説しました。そして、これはDiscourseとAIの関係におけるトップダウンの位置の非常に残念な症状である可能性があります…それは、まあ、または肩すくめのように感じられますが、感情は間違っている可能性があるため、事実で私を間違っていると証明してください。

私のポイントを理解した人もいます。または、少なくともOPをより詳しく調べ、より良い貢献をしました。それらに感謝しています。それらは、私がまだ開発中の非常に粗雑なマルチポイントソリューションのいくつかの潜在的なパスに私を導きました。そして、AIが提起した要求によりよくマッピングするために開発者による認識が必要であり、それを実行可能なライブ、しかしまだ応急処置としてより良くするためです。

オンラインフォーラムは、トラフィックから収益の減少まで、この10年間で厳しい時期を過ごしてきました。このイベントの意味は、それらの落胆のグラフを壊し、多くのオペレーターにとっては最終的な破滅的なイベントに他ならず、彼らは単に店を閉めるでしょう。

Ed_S · 2023 年 7 月 15 日午後 6:52

特定のトピックについて議論したいので、人々が集まってそれらのトピックについて議論できるフォーラムを実行しています。Discourseを選択しましたが、私の意見では、オープンウェブ上の他のどのソリューションも同じリスクと同じ結果をもたらすでしょう。議論はオープンウェブ上で行われ、検索結果に表示されることを望んでいます。

人々はTelegramやSignalのようなプライバシーを意識したプラットフォームでやり取りをすることができますし、実際にしています。しかし、それらは異なる目的で構築された異なる種類のサービスです。Discourseのチャットがあなたが望むもののいくつかを提供する可能性がありますが、私にはそれに興味はありません。

トピック		返信	表示
What is stopping you from trying out Discourse AI? Community Building ai	35	2130	2025 年 8 月 23 日
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	102	9271	2025 年 2 月 13 日
Discourse is Agent Ready: Here’s How Blog	9	634	2026 年 5 月 24 日
Forums that forbid AI content… How's it going? Community Building	23	706	2026 年 7 月 13 日
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	34	1994	2025 年 11 月 20 日

コミュニティコンテンツがChatGPTのようなLLMの学習に使われるのを防ぐには？

関連トピック