禁用或绕过 Googlebot 的功能检测(同时为爬虫提供 JS 应用)

我开始认为我的逻辑从一开始就是错误的。这可以解释为什么没有人回应——也许根本没什么问题。

这是一篇关于谷歌在截图中显示空白页是正常现象的新文章:

我现在可以看到主页的“抓取”HTML,这是索引版本,而不是来自“实时测试”——它显示了完整的页面。请记住,谷歌在为他们提供完整的 JS 应用时就弄明白了这一点。

有趣的是,就索引而言,他们向下滚动到了主页上的大约第 27 篇文章。所以无限滚动是谷歌能够理解的东西。

我不确定这是否有帮助,但我取消了管理员设置中的 ajax 选项。这导致谷歌找到了如下所示的 URL(并提供了爬虫版本)——我取消了它,现在该 URL 将显示 JS 版本:

https://discuss.flynumber.com/t/japan-phone-numbers-disconnect-notice/2351?_escaped_fragment_=

现在我只需要弄清楚如何清理 由 discourse 为用户页面创建的额外的规范化 URL。