Google搜索索引与话语

你好 @kirupa

顺便提一下,当 Google 索引同一域名下的两个网站时(例如你的例子中的 kirupa.com 包含相似内容),通常所谓的“惩罚”(严格来说并非真正的“惩罚”,更像是一种“规范选择”)是指 Google 的算法会选择其中一个页面作为规范页面,该页面将在搜索结果中排名更高。(Google 甚至可能将其判定为非规范的页面从索引中移除)。

Google 对此一直表述得很清楚:在大多数情况下,“重复内容惩罚”其实是个误解。这实际上关乎“规范化”和“选择”:

如果您的网站包含多个内容基本相同的页面,您可以通过多种方式向 Google 指明首选的 URL。(这称为“规范化”。)有关规范化的更多信息。(参考 1)

例如,如果您同时保留旧网站和新网站,可以使用 link canonical 标签告知 Google 您的新网站是 规范网站,Google 随后将优先索引您的新网站。

更好的解决方案是允许搜索引擎抓取这些 URL,但通过使用 rel="canonical" 链接元素、URL 参数处理工具或 301 重定向将它们标记为重复内容。在重复内容导致我们过度抓取您的网站的情况下,您还可以在 Search Console 中 调整抓取频率设置。(参考 1)

示例:

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

@kirupa,你还问道:

Google 是否将每个主题视为一个可索引的“页面”?我之所以这么问,是因为我们论坛中很大一部分主题并未出现在 Google 的数据库中。

关于 Google 与无限滚动,我推荐一篇非常棒(但略显过时)的讨论,来自 Google 官方 Webmaster Central 博客(参考 2):

@kirupa,一种实用(而非理论)的验证方法是使用 GSC(Google Search Console)查看其提供的“截图”,以了解它们如何呈现您的页面。这可以通过 GSC 中的“检查移动端友好度”功能轻松实现(例如);如果您在 Discourse 中发布了一篇非常长的帖子,可以检查 Google 索引(读取并索引)了多少内容。关于无限滚动以及 Google 如何索引这些页面,存在许多不同观点。您可以使用 GSC 检查自己的页面,亲自验证。

根据 Google 的 Martin Splitt(参见参考 3)在 2020 年 4 月 14 日的说明:

Splitt 举例说明了一个依赖无限滚动(也称为“懒加载”)来加载新内容的新闻网站。

这意味着网页(在此例中为首页)在访客滚动到屏幕底部之前不会加载额外内容。

Splitt 解释了这为何是个问题:“Googlebot 不会做什么?它不会滚动。”

Googlebot 的做法是访问页面并抓取立即可见的内容。

根据 Splitt 的陈述,Googlebot 无法抓取仅在页面滚动后才加载的内容。

如前所述,@kirupa,您可以使用 GSC 中的工具检查自己的页面,这些工具将展示 Google 如何查看(并索引)您的页面的快照。

根据 Google 的 Splitt 在 2020 年 4 月的说法:“Googlebot 不会滚动。”(转述)

关于“Google 搜索索引与 Discourse”这一主题问题,每位网站所有者都可以轻松使用 GSC 来确定 Googlebot 如何索引特定页面。

我的建议是,如果您有任何关于 Googlebot 如何索引您页面的疑问,请使用 GSC(Google Search Console)检查自己的页面。希望这能对您有所帮助。

参考:

  1. How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

  2. Official Google Webmaster Central Blog: Infinite scroll search-friendly recommendations

  3. Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems