AIコンテンツを禁止するフォーラム…どうなってる?

AI/LLMによる生成コンテンツを許可していないフォーラムのスタッフの皆様に、その経験を伺いたいです。ユーザーに対してどのようにこの方針を伝えていますか?また、どのように検知していますか?それでも投稿してしまったユーザーに対しては、どのようにアプローチしていますか?

ご意見・ご感想をぜひお聞かせください。

注:個人的には、サイトのフロントエンドにおける人間同士のやり取りに関する側面のみに関心があります。クローラーのブロックはもはや不可能だと考えています。

私たちのフォーラムは、精神的・宗教的な議論を行う場です。AI生成コンテンツは一切禁止しています。

「いいね!」 6

AIによるテキストのほとんど、あるいはすべては、単に読むだけで簡単に検出できます。GoogleのSynthIDは、AI画像を検出するためのクールな技術で、おそらくGeminiのみが書いたテキストも検出できると主張していますが、OpenAIもこの標準をサポートしています。実際に自分でテキストを検出できる能力は、おそらく習得するスキルですが、AIの画像やテキストを検出できないという現在の危機に対応するための取り組みには感謝しています。

ミュートやアカウント停止は、私の意見では、特に新しいアカウントの場合、まだ適切な対応方法だと思います。もしあなたのサイトに突然参加して、すぐにAI生成のトピックを投稿するランダムな新しいアカウントがあれば、アカウントを停止してブロックする理由は何もないと思います。

スクレイピングの問題全体について:私のサイトは現在、小規模な会社内の内部コミュニケーションとドキュメントのために使用されており、最終的にはブログのバックエンドとして使用することを計画しています。ドメインのrobotstxtファイルを無視するクローラーを追い払うためのハニーポットを設定するのは難しくはありませんでした。

この戦術一つだけで、2週間の間に600万リクエストほどが発生しました(ドメインに対して約6req/s):

AIクローラーがそのサイトを訪れると、彼らはiocaineプロジェクトを使用して、約7000語の架空の単語、いくつかの無意味なHTML、ランダムな単語、8B Llamaによって作成されたフェイクニュースを含むデータセットで自己ホストされた、スパムでいっぱいになった無限の迷路に導かれます。

もちろん、これは「立ち去れ」という核兵器のような戦術であり、すべての人に適しているわけではありませんが、LLMが私のコードやテキストコンテンツを奪うのを防ぐという私の目標には非常に役立っています。AnthropicがLLMのポイズニングについて行ったケーススタディを読んだことを覚えています。しかし、その記事はもう見つからないので、ここでは添付されませんが、ボットが私のドメインに500万リクエストを送信したことに気づいた時点で、彼らは私のドメインをブロックする必要があるはずです。

「いいね!」 4

(クローラーの負荷、トレーニング目的でのコンテンツの取得、そして現在の急速な発展に伴う社会的・経済的影響といった問題については棚上げにしていることに気づきました。それは結構なことだと思います。)

私自身の経験として、投稿数の少ない趣味用のサイトでは、

  • 書面による方針の合意形成と策定を試みている
  • 発生した問題に対応する
  • 最もひどい例は essentially スパムなので、削除して BAN する
  • それ以外は、公開または非公開で抗議し、場合によっては投稿を削除する

ガイドラインの例としては、以下のような形が考えられます:

  • 投稿するメッセージのコンテンツを「所有」する(つまり、どこから来たかに関係なく、コンテンツを盲目的にコピー&ペーストするのではなく、読み、理解する)。
  • 新しいスレッドを立てる前に、まず自分自身で質問に答えるように努める(例えば、フォーラムを検索するなど)。
  • 他のユーザーが読んで理解し、助けられるように、具体的かつ簡潔に伝える。つまり、繰り返しの多い不要なテキストの壁や、十分な情報がない過度に広い声明を避ける。
  • 議論をトピックに集中させ、メタ議論(特に AI の使用に関する「ベストプラクティス」や「その倫理」など)を避ける。
  • 会話では敬意を持ち、異なる背景、見解、意見を持つユーザーがいることを忘れない。
  • 楽しんでください!これは趣味のためのものです。

(私たちの趣味の環境では、LLM の趣味内での使用という追加の側面があり、これは可能性のスペクトルをカバーし、愛好家と反対派の両方を持っています。)

「いいね!」 3