有人看到过OpenAI的网络爬虫GPTBot访问过他们的网站吗？

EricGT · 2023 年8 月 8 日 16:07

OpenAI 创建了一个名为 GPTBot 的网页爬虫。

作为 Discourse 管理员，我检查了 /admin/reports/web_crawlers 报告，但还没有看到它。

好奇其他人是否在实际中看到过它。

marianord · 2023 年8 月 8 日 16:19

我已经（并且刚刚将其屏蔽了）。

sam · 2023 年8 月 9 日 05:54

请注意……我看到一种错误的观点：

直接屏蔽它

这是一种单向关系

我认为这忽略了一个重要的问题。让 OpenAI 抓取 meta.discourse.org 对 CDCK 非常有益。当你向 GPT 4 提问关于 Discourse 的问题时，它至少有很大的几率能够回答。

这是一种双向关系：

你给予 OpenAI 数据访问权限
OpenAI 在你的数据上训练 LLM，这可能会为你带来价值。

另外，相关内容：How to prevent community content from being used to train LLMs like ChatGPT?

我们在一些舰队中看到一些 GPTBot 访问，流量大约是 Googlebot 的 20-40 倍。

任何对此感到不适的人都可以直接在 Discourse UI 中屏蔽，但与我们见过的一些不良机器人相比，该机器人似乎表现得非常好。

EricGT · 2023 年8 月 9 日 07:32

对于那些想找出其中一些不好的，就像我们发现它们一样，我们在帖子中注明。

agemo · 2023 年8 月 19 日 19:43

是的，这也是我第一次使用爬虫报告，结果令人惊讶。

我的看法是，它出现在八月份，而且是所有爬虫中最大的。

以下是一个 24 小时周期的示例以及比例：

#1 ChatGPT 18K 页面浏览量
#2 mj12bot 1.8K 页面浏览量
…
#4 Google 1.7K 页面浏览量

这个 discourse 部署被专门设置为 long_required，以阻止爬虫访问内容，所以它一定只访问 login_required 页面来累积这些点击量，对吧？

它可以使用用户吗？

我假设这在技术上是可能的，但不太可能，如果那样的话，我预计该用户会突然拥有非常高的帖子阅读计数。

现在它看起来接近 100K 页面浏览量，远远超过下一个最高的，大约不到一半。

ChatGPT 爬虫是个怪物。

JimPas · 2023 年8 月 21 日 23:28

你的 #3 是未识别的吗？我也有一个。它在列表中只显示为“—” 。它也是我列表中的 #3，但对于需要登录的私有论坛来说，机器人带来的页面浏览量少了很多。

agemo · 2023 年8 月 22 日 13:30

不，嗯，算是吧，你看我没法读取它，因为它被截断了，但我认为它是 AppleWebKit 爬虫。我需要导出数据才能读取完整条目。

从那以后，我几乎阻止了所有的爬虫，尽管它和你一样，在一个需要登录的私人论坛里。到目前为止，今天的爬虫数量已降至 20 个，而几天前则接近 14,000 个！

JimPas · 2023 年8 月 22 日 19:50

在您的仪表板上：admin/reports/web_crawlers 将显示过去 30 天的网络爬虫。将鼠标悬停在每个爬虫上可暂时显示每个爬虫的完整描述，而无需导出列表。使用右上角的日历更改视图以查看过去一天，然后点击刷新。
到目前为止，在过去的 24 小时内，我有 3 个爬虫（第一个最糟糕）：
PetalBot - petalsearch.com/bot/petalbot - 4 次查看
GPTBot - openai.com/gptbot - 3 次查看
— -（无描述）- 1 次查看

在 30 天内，PetalBot 爬取最多，其次是 Yandex。

agemo · 2023 年8 月 22 日 20:49

我现在看到了，大约在第 15 行。我将“—”添加到了阻止列表中，作为一个爬虫，它比最恶劣的爬虫要低得多，但让我们看看会发生什么

自一月份以来，我几乎有 50 个列表，但令人惊讶的是，ChatGPT 在大约不到两周的时间里，就超过了从一月到今天整个时期内第二高的机器人数量的两倍多，以这个速度，如果保持这个速度，ChatGPT 一年将相当于近 300 万次页面浏览量，每天 7-8K。

刚刚将 Grammarly 添加到阻止列表中！

JimPas · 2023 年8 月 27 日 19:03

如果有人感兴趣，以下是 GPTBot (OpenAI) 使用的 IP 地址范围，已在其网站上发布。他们列出了 9 个 IP 地址。

https://openai.com/gptbot-ranges.txt

eisammy · 2025 年6 月 23 日 15:52

上个月我也有同感，我延迟允许了 GPTBot/DeepSeek/Perplexity，我看到这些来源缓慢增长并转化了新成员

提示：Cloudflare 速率限制或许可以帮助您避免高请求和带宽过载

Jagster · 2025 年6 月 23 日 19:59

据我所知，OpenAI 不会延迟。这就是我禁用他们的教学机器人的原因；它太勤奋了（嗯，还有其他原因，就像我禁用所有看到的 SEO/营销机器人一样：我不会为别人的业务买单）。

话题		回复	浏览量
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4785	2023 年12 月 2 日
Tracking LLM Crawler Activity: Can we identify which topics are being indexed/crawled most frequently? Data & reporting data-explorer	3	129	2026 年4 月 21 日
How to prevent community content from being used to train LLMs like ChatGPT? Community Building	69	5021	2023 年7 月 16 日
How to protect myself from bots crawling my Discourse instance? Support	4	1660	2019 年1 月 21 日
Smarter handling of random crawler traffic Feature	1	3568	2018 年3 月 29 日

有人看到过OpenAI的网络爬虫GPTBot访问过他们的网站吗？

相关话题