使用 Google Analytics 调查可疑机器人流量
本指南提供了一个使用 Google Analytics 4 (GA4) 帮助识别和调查可疑机器人活动的循序渐进的过程。
1. 了解 GA4 的默认机器人过滤
GA4 默认会自动排除来自已知机器人和蜘蛛的流量。[1] 此过滤基于 Google 的研究以及 IAB 的国际蜘蛛和机器人列表。
本指南中的步骤旨在帮助您识别可能不在此列表中的更复杂或未知的机器人。
2. 分析流量中的异常模式
机器人通常会产生与您典型用户模式显著不同的流量。
步骤:
-
检查实时报告:
- 转到 报告 > 实时页面。查找“过去 30 分钟内的活跃用户”的突然、无法解释的激增。这可能是机器人活动增加的第一个迹象。
如果您认为您的网站受到垃圾邮件攻击,请使用我们的指南 Immediate actions you can take during a spam attack
-
调查地理位置:
- 转到 报告 > 受众特征 > 用户 > 用户属性 > 受众特征详细信息。
- 显示的默认图表应为受众特征详细信息:国家/地区。查找来自您不定位的国家/地区、您没有业务存在或通常流量很少的国家/地区的许多用户。来自单一、意外位置的突然激增是一个主要的危险信号。
-
分析流量来源以识别推荐垃圾邮件:
- 转到 报告 > 获客 > 流量获客。
- 报告默认显示“会话默认渠道组”。单击主要维度旁边的下拉箭头,然后选择会话来源/媒介。扫描可疑或无意义的推荐来源(例如,“free-traffic-seo.com”、“buttons-for-your-website.com”)。这些是推荐垃圾邮件的典型迹象[2]。
3. 仔细检查用户行为指标
行为指标可能是 GA4 分离人类用户和机器人的最有力工具。
步骤:
-
查找参与度低的时间:
- 转到 报告 > 参与度 > 页面和屏幕。
在 GA4 中,参与度是持续时间超过 10 秒、具有转化事件或至少有 2 次页面浏览量的会话的百分比。这比他们之前的“跳出率”测量值更细致地查看了会话。- 平均参与度指标显示用户在您的网站前台停留的时间。机器人通常在页面上花费的时间非常少。按“平均参与度”(升序)对表格进行排序,以查找尽管浏览量很大但参与度异常低的页面。
- 查找“浏览量”很高但“参与度”非常低的页面。这表明用户着陆页面后立即离开,这是常见的机器人行为。
如果您没有看到“参与度”列,则需要添加它。单击右上角的铅笔图标(自定义报告),选择“指标”,然后将“参与度”添加到报告中。请记住保存您的更改。
-
检查着陆页:
- 转到 报告 > 参与度 > 着陆页。
- 在左侧导航中,转到 报告 > 参与度 > 着陆页。查找“新用户”数量很多但“平均参与度”极低的页面。这种模式表明自动化流量命中您网站上的特定入口点并立即离开。
4. Google Analytics 无法告诉您的信息 
- IP 地址:与 Google Search Console 一样,Google Analytics 不会报告用户 IP 地址。此信息只能在您的服务器日志中找到。分析服务器日志对于阻止恶意 IP 至关重要。
结论
虽然 Google Analytics 在识别可疑流量模式方面可能很有帮助,但要减缓或阻止 Discourse 论坛上的不需要的爬虫,您需要调整一些设置,您可以在 管理 > 站点设置 中搜索 crawler 时找到这些设置。
对于您选择完全阻止的机器人,请将其用户代理添加到 Blocked crawler user agents。对于不那么积极但仍然消耗资源的机器人,您可以将其添加到 Slow down crawler user agents 以降低其爬行速度,而无需完全阻止它们。您可以通过 Slow down crawler rate 站点设置来管理减速的速度。
在进行这些设置的调整时要非常小心。例如,一些网站所有者因错误配置此设置而意外阻止了来自合法搜索引擎的所有流量。
最后,请记住,这些措施并非万无一失。爬虫在不断发展,可能不会表现良好;它们可能会更改其用户代理字符串或将请求分布在多个 IP 地址上以绕过这些限制。因此,虽然这些设置可以提供强大的第一道防线,但您应该继续监控您的分析和服务器日志以发现新的或异常的模式。