使用 Google Analytics 调查可疑的机器人流量
本指南提供了使用 Google Analytics 4 (GA4) 逐步识别和调查可疑机器人活动的流程。
1. 了解 GA4 的默认机器人过滤
GA4 默认会自动排除来自已知机器人和蜘蛛的流量。[1] 此过滤功能基于 Google 的研究以及 IAB 提供的《国际蜘蛛与机器人列表》。
本指南中的步骤旨在帮助您识别可能不在该列表中的更复杂或未知的机器人。
2. 分析异常流量模式
机器人产生的流量通常与您的典型用户模式显著不同。
步骤:
-
检查实时报告:
- 进入 报告 > 实时页面。查看“过去 30 分钟内的活跃用户”是否出现突然且无法解释的激增。这可能是机器人活动增加的第一个迹象。
如果您认为您的网站正遭受垃圾邮件攻击,请使用我们的指南:Immediate actions you can take during a spam attack -
调查地理位置:
-
进入 报告 > 人口统计 > 用户 > 用户属性 > 人口统计详情。
-
默认显示的图表应为 人口统计详情:国家。查找来自您未 targeting 的国家、您没有业务存在或通常流量很少的国家的用户数量激增。来自单一意外地点的突然激增是一个重大警示信号。
-
-
分析流量来源以检测引荐垃圾邮件:
-
进入 报告 > 获客 > 流量获客。
-
报告默认按“会话默认渠道组”显示。点击主维度旁边的下拉箭头,选择 会话来源/媒介。扫描可疑或无意义的引荐来源(例如
"free-traffic-seo.com,""buttons-for-your-website.com")。这些是引荐垃圾邮件的典型迹象[2]。
-
3. 仔细审查用户行为指标
行为指标可能是 GA4 区分人类用户和机器人的最强工具。
步骤:
-
寻找低参与时间:
- 进入 报告 > 参与互动 > 页面和屏幕。
在 GA4 中,参与率是指持续时间超过 10 秒、包含转化事件或至少有 2 次页面浏览的会话百分比。这比之前的“跳出率”指标提供了更细致的会话视图。-
平均参与时间指标显示您的网站在用户前台停留了多长时间。机器人通常在页面上停留的时间非常短。按“平均参与时间”(升序)对表格进行排序,以查找尽管浏览量很大但参与时间异常低的页面。
-
查找“浏览量”高但“参与率”极低的页面。这表明用户进入页面后立即离开,这是机器人的常见行为。
如果您没有看到“参与率”列,则需要添加它。点击右上角的铅笔图标(自定义报告),选择“指标”,并将“参与率”添加到报告中。记得保存您的更改。 -
检查落地页:
-
进入 报告 > 参与互动 > 落地页。
-
在左侧导航栏中,进入 报告 > 参与互动 > 落地页。查找 新用户 数量很高但 平均参与时间 极低的页面。这种模式表明自动化流量正在撞击您网站的特定入口点并立即离开。
-
4. Google Analytics 无法告诉您的内容 
- IP 地址:与 Google Search Console 一样,Google Analytics 不报告用户 IP 地址。这些信息只能在您的 服务器日志 中找到。分析服务器日志对于阻止恶意 IP 至关重要。
结论
虽然 Google Analytics 有助于识别可疑的流量模式,但要减缓或阻止 Discourse 论坛上的不必要爬虫,您需要调整 管理 > 配置 > 安全 下的某些爬虫设置。
Discourse 默认已通过 Blocked crawler user agents(阻止的爬虫用户代理)设置阻止了几种攻击性爬虫(mauibot, semrushbot, ahrefsbot, blexbot, seo spider)。对于您选择完全阻止的其他机器人,请将它们的用户代理添加到此列表中。
对于攻击性较低但仍消耗资源的机器人,您可以将它们添加到 Slow down crawler user agents(减缓爬虫用户代理)中,以在不完全阻止的情况下降低其爬取速度。默认情况下,这已经限制了常见 AI 机器人(gptbot, claudebot, anthropic-ai, brightbot)的速率。您可以通过 Slow down crawler rate(减缓爬虫速率)站点设置来管理减缓速率,该设置控制允许请求之间的秒数(默认:60 秒)。
还有一个 Allowed crawler user agents(允许的爬虫用户代理)设置,它充当严格的白名单。如果您将任何用户代理添加到此列表,所有其他爬虫都将被阻止。仅当您希望将网站限制为特定的一组爬虫时才使用此功能。
调整这些设置时请务必非常小心。例如,一些网站所有者因错误配置此设置而意外阻止了所有来自合法搜索引擎的流量。
最后,请记住这些措施并非万无一失。爬虫在不断进化,可能行为不端;它们可能会更改用户代理字符串,或将请求分散到多个 IP 地址以绕过这些限制。因此,虽然这些设置可以提供强有力的第一道防线,但您应继续监控您的分析数据和服务器日志,以发现新的或异常的模式。