禁用或绕过 Googlebot 的功能检测(同时为爬虫提供 JS 应用)

如果我能补充一点…… :smirk:

在我把 JS 版本发送给谷歌之前,我一直在捣鼓它。

我记得 大约在四月初 左右测试过将 JS 版本发送给谷歌。我记得它(即使看起来很糟糕)大多数时候都能返回一个结果。使用的是谷歌移动工具。

我曾以为是 这个提交 —— 我修改了代码,重启后行为还是一样。

也许有人记得过去几个月里有哪个 PR 或提交可能改变了浏览器和/或爬虫检测?

编辑 抱歉更新这么多,信息越多越好,对吧?

上个月尝试使用 prerender 时,谷歌最终为论坛覆盖添加了 2000 个网址。(主要是这些网址

它们都在 0.005 秒内被提供,prerender 已经缓存了网址,并准备好供 googlebot 访问。所以它很快地获取了所有这些网址。

重点是,也许爬虫已经“非常习惯”了没有 JS 的情况,并投入了资源来获取这 2000 页。

所以现在它以这种方式访问网站,直到它弄清楚(并且需要更多地使用 JS 访问)—— 这只是一个理论。