追踪 LLM 爬虫活动:我们能否识别哪些主题被索引/爬取最频繁?

我们正试图确定哪些具体主题被 AI 爬虫最常索引/抓取,以确保我们“被引用”最多的内容不会助长大语言模型的幻觉。请问能否通过数据探索器将爬虫访问归因于各个主题 ID?

我可能说错了,但我觉得 Discourse 不会在分类或主题层面追踪网络爬虫的流量。(或许可以通过某种查询计算来推导出相关数据?:thinking:

大多数 AI 爬虫活动不会通过用户代理(User Agent)表明身份。它们通常声称自己是过时的 Chrome 版本。识别它们的唯一方式是它们只访问单个页面,而不会留在网站上访问第二个页面。这些爬虫通常位于数据中心,但我也观察到大量来自移动设备和家庭 IP 的单页访问流量,我推测这些是通过被入侵的设备发起的。

大多数 AI 爬虫都会声明 User-Agent。您所指的其实是 SEO 机器人/爬虫,以及其他恶意、滥用或不受欢迎的非人类行为者。