有人看到过OpenAI的网络爬虫GPTBot访问过他们的网站吗?

OpenAI 创建了一个名为 GPTBot网页爬虫

作为 Discourse 管理员,我检查了 /admin/reports/web_crawlers 报告,但还没有看到它。

好奇其他人是否在实际中看到过它。

3 个赞

我已经(并且刚刚将其屏蔽了)。

2 个赞

请注意……我看到一种错误的观点:

直接屏蔽它

这是一种单向关系

我认为这忽略了一个重要的问题。让 OpenAI 抓取 meta.discourse.org 对 CDCK 非常有益。当你向 GPT 4 提问关于 Discourse 的问题时,它至少有很大的几率能够回答。

这是一种双向关系:

你给予 OpenAI 数据访问权限
OpenAI 在你的数据上训练 LLM,这可能会为你带来价值。

另外,相关内容:How to prevent community content from being used to train LLMs like ChatGPT?

我们在一些舰队中看到一些 GPTBot 访问,流量大约是 Googlebot 的 20-40 倍。

任何对此感到不适的人都可以直接在 Discourse UI 中屏蔽,但与我们见过的一些不良机器人相比,该机器人似乎表现得非常好。

8 个赞

对于那些想找出其中一些不好的,就像我们发现它们一样,我们在帖子中注明。

1 个赞

是的,这也是我第一次使用爬虫报告,结果令人惊讶。

我的看法是,它出现在八月份,而且是所有爬虫中最大的。

以下是一个 24 小时周期的示例以及比例:

#1 ChatGPT 18K 页面浏览量
#2 mj12bot 1.8K 页面浏览量

#4 Google 1.7K 页面浏览量

这个 discourse 部署被专门设置为 long_required,以阻止爬虫访问内容,所以它一定只访问 login_required 页面来累积这些点击量,对吧?

它可以使用用户吗?

我假设这在技术上是可能的,但不太可能,如果那样的话,我预计该用户会突然拥有非常高的帖子阅读计数。

现在它看起来接近 100K 页面浏览量,远远超过下一个最高的,大约不到一半。

ChatGPT 爬虫是个怪物。

1 个赞

你的 #3 是未识别的吗?我也有一个。它在列表中只显示为“—” 。它也是我列表中的 #3,但对于需要登录的私有论坛来说,机器人带来的页面浏览量少了很多。:sweat_smile:

1 个赞

不,嗯,算是吧,你看我没法读取它,因为它被截断了,但我认为它是 AppleWebKit 爬虫。我需要导出数据才能读取完整条目。

从那以后,我几乎阻止了所有的爬虫,尽管它和你一样,在一个需要登录的私人论坛里。到目前为止,今天的爬虫数量已降至 20 个,而几天前则接近 14,000 个!

2 个赞

在您的仪表板上:admin/reports/web_crawlers 将显示过去 30 天的网络爬虫。将鼠标悬停在每个爬虫上可暂时显示每个爬虫的完整描述,而无需导出列表。使用右上角的日历更改视图以查看过去一天,然后点击刷新。
到目前为止,在过去的 24 小时内,我有 3 个爬虫(第一个最糟糕):
PetalBot - petalsearch.com/bot/petalbot - 4 次查看
GPTBot - openai.com/gptbot - 3 次查看
— -(无描述)- 1 次查看

在 30 天内,PetalBot 爬取最多,其次是 Yandex。

1 个赞

我现在看到了,大约在第 15 行。我将“—”添加到了阻止列表中,作为一个爬虫,它比最恶劣的爬虫要低得多,但让我们看看会发生什么 :wink:

自一月份以来,我几乎有 50 个列表,但令人惊讶的是,ChatGPT 在大约不到两周的时间里,就超过了从一月到今天整个时期内第二高的机器人数量的两倍多,以这个速度,如果保持这个速度,ChatGPT 一年将相当于近 300 万次页面浏览量,每天 7-8K。

刚刚将 Grammarly 添加到阻止列表中!

1 个赞

如果有人感兴趣,以下是 GPTBot (OpenAI) 使用的 IP 地址范围,已在其网站上发布。他们列出了 9 个 IP 地址。

https://openai.com/gptbot-ranges.txt

3 个赞

上个月我也有同感,我延迟允许了 GPTBot/DeepSeek/Perplexity,我看到这些来源缓慢增长并转化了新成员

提示:Cloudflare 速率限制或许可以帮助您避免高请求和带宽过载

据我所知,OpenAI 不会延迟。这就是我禁用他们的教学机器人的原因;它太勤奋了(嗯,还有其他原因,就像我禁用所有看到的 SEO/营销机器人一样:我不会为别人的业务买单)。

1 个赞