新的 Googlebot 检测?

我们注意到 forum.makerforums.info 的匿名(非机器人)页面浏览量出现激增,并发现这些访问与 66.249/16 网段中的 crawl-$IP.googlebot.com 主机名相关联。我发现 Google 最近宣布将更改其用户代理字符串:

https://webmasters.googleblog.com/2019/10/updating-user-agent-of-googlebot.html

有两个相关问题:

  • 报告(次要):报告存在错误,因为图表未将其显示为“爬虫”活动,而是显示为“匿名”
  • 索引(重要):当前用于禁用无限滚动以呈现完整页面的代码是否能与新的用户代理配合工作?(如果不能,我们可能一直未能被正确索引……)

我刚刚使用博客文章中提到的用户代理测试了爬虫检测功能,一切正常。您可以自行测试:选择任意浏览器插件,设置其中一个用户代理,然后访问您的网站。报告功能使用的是来自 RequestTracker 的数据,而该数据依赖相同的爬虫检测机制,因此我不确定为何您会看到被计为匿名流量的机器人。

啊哈!我原以为看到了新的用户代理,结果是我错了。日志搜索做得不好。我看到的新的 Chrome 版本字符串来自 google-proxy-$IP.google.com,这些是真实流量经过 Google 代理产生的。

非常抱歉,我本应深入挖掘一下。不过我想现在这里至少留下了一条记录,说明这些新的用户代理字符串没问题,这样下一个困惑的人来搜索时就能参考了!:smiling_face:

:blush: