OpenAIのウェブクローラーGPTBotがサイトを訪れたのを見た人はいますか?

OpenAIはGPTBotという名前のウェブクローラーを作成しました。

Discourseの管理者は、/admin/reports/web_crawlersレポートを確認しましたが、まだ見つかっていません。

他の人が実際にこれを見かけたことがあるか気になります。

「いいね!」 3

(ブロックしました)。

「いいね!」 2

注意…そこには次のような誤った考え方があるのを見かけました。

ただブロックすればいい

これは一方的な関係だ

これは重要な点を一つ見落としていると感じています。OpenAIがmeta.discourse.orgをクロールできるようにしたことは、CDCKにとって非常に有益でした。GPT 4にDiscourseに関する質問をすると、少なくとも答えるチャンスがあります。

これは双方向の関係です。

OpenAIにデータへのアクセスを与える
OpenAIはあなたのデータでLLMをトレーニングするために森を燃やす(これはあなたに価値をもたらす可能性があります)。

関連情報: How to prevent community content from being used to train LLMs like ChatGPT?

私たちのフリート全体でGPTBotへのアクセスが一部見られますが、Googlebotからのトラフィックと比較すると、そのトラフィックは20〜40倍少ないです。

それに不快感を感じる人は、Discourse UIで直接ブロックできますが、このボットは、私たちが過去に見た他の悪いボットと比較して、非常に振る舞いが良いようです。

「いいね!」 8

悪いものを特定したい人のために、いくつか見つけ次第、この投稿に記録していきます。

「いいね!」 1

はい、クローラーレポートも初めて使ってみたのですが、見てみるとありました。

8月に出現し、それが最大のクローラーだと私は考えています。

以下に24時間の例と、その比率を示します。

#1 ChatGPT 18Kページビュー
#2 mj12bot 1.8Kページビュー

#4 Google 1.7Kページビュー

このディスコースデプロイメントは、クローラーがコンテンツにアクセスするのを完全に停止するために特別にlong_requiredに設定されたものなので、ヒット数を稼ぐためにはlogin_requiredページにしかアクセスしていないはずですよね?

ユーザーを使用することは可能でしょうか?

技術的には可能だと思いますが、可能性は低いと思います。もしそうであれば、そのようなユーザーは突然非常に高い投稿閲覧数を記録するはずです。

現在、100Kページビュー近くに達しており、次に高いものはその半分未満です。

ChatGPTクローラーはモンスターです。

「いいね!」 1

#3は未特定ですか?私もそれを持っています。リストには「—」としか表示されません。私のリストでも#3ですが、ログインが必要なプライベートフォーラムではボットからのページビューははるかに少ないです。:sweat_smile:

「いいね!」 1

いいえ、まあ、そうですね。切り捨てられていたので読めなかったのですが、AppleWebKit クローラーだと思います。完全なエントリを読むには、データをエクスポートする必要があります。

それ以来、ログインが必要なプライベートフォーラムであなたと同じように、事実上すべてのクローラーをブロックしました。クローラーは今日までに20件に減少しました。数日前には約14,000件でした!

「いいね!」 2

ダッシュボードの admin/reports/web_crawlers には、過去30日間のウェブクローラーが表示されます。各クローラーにカーソルを合わせると、リストをエクスポートしなくても、各クローラーの完全な説明が一時的に表示されます。右上にあるカレンダーを使用して過去1日間の表示に変更し、「更新」をクリックします。

過去24時間で、私は3つのクローラーがありました(1番目が最悪です)。
PetalBot - petalsearch.com/bot/petalbot - 4 回表示
GPTBot - openai.com/gptbot - 3 回表示
— - (説明なし) - 1 回表示

30日間を通して、PetalBot が最も多くクロールし、次に Yandex が続きます。

「いいね!」 1

わかりました。約15行下です。「—」をブロックリストにクローラーとして追加しました。最も悪質なものに比べると非常に低いですが、どうなるか見てみましょう :wink:

1月からほぼ50件のリストがありますが、驚くべきことにChatGPTは2週間足らずで、1月から今日までの全期間で2番目に高いボットの2倍以上になっています。そのペースだと、ChatGPTは年間約300万ページビューに相当します。もしペースが維持されれば、1日あたり7〜8Kになります。

Grammarlyをブロックリストに追加しました!

「いいね!」 1

もし興味のある方がいれば、GPTBot(OpenAI)が使用するIPアドレスの範囲を公開されているウェブサイトから引用します。9つのIPアドレスがリストされています。

https://openai.com/gptbot-ranges.txt

「いいね!」 3

私も先月同じように感じました。GPTBot、DeepSeek、Perplexityを遅延させて許可したところ、これらのソースがゆっくりと成長し、新しいメンバーを獲得しているのを見ました。

Tip: Cloudflareのレート制限は、大量のリクエストと帯域幅の過負荷を避けるのに役立つかもしれません。

OpenAIは遅延に追従しない、私の知る限りでは。それが彼らの学習ボットを禁止した理由だ。あまりにも勤勉すぎたからだ(まあ、他にも理由があったのだが、目につくSEO/マーケティングボットを全て禁止するのと同じで、他人のビジネスにお金を払うつもりはない)。

「いいね!」 1