noahl
(Noah Lovell)
2026 年4 月 20 日 21:41
1
我们正试图确定哪些具体主题被 AI 爬虫最常索引/抓取,以确保我们“被引用”最多的内容不会助长大语言模型的幻觉。请问能否通过数据探索器将爬虫访问归因于各个主题 ID?
Lilly
2026 年4 月 20 日 21:59
2
我可能说错了,但我觉得 Discourse 不会在分类或主题层面追踪网络爬虫的流量。(或许可以通过某种查询计算来推导出相关数据? )
# == Schema Information
#
# Table name: web_crawler_requests
#
# id :bigint not null, primary key
# date :date not null
# user_agent :string not null
# count :integer default(0), not null
#
# Indexes
#
# index_web_crawler_requests_on_date_and_user_agent (date,user_agent) UNIQUE
#
大多数 AI 爬虫活动不会通过用户代理(User Agent)表明身份。它们通常声称自己是过时的 Chrome 版本。识别它们的唯一方式是它们只访问单个页面,而不会留在网站上访问第二个页面。这些爬虫通常位于数据中心,但我也观察到大量来自移动设备和家庭 IP 的单页访问流量,我推测这些是通过被入侵的设备发起的。
Jagster
(Jakke Flemming)
2026 年4 月 21 日 05:26
4
大多数 AI 爬虫都会声明 User-Agent。您所指的其实是 SEO 机器人/爬虫,以及其他恶意、滥用或不受欢迎的非人类行为者。