Google搜索索引与话语

neounix · 2020 年6 月 9 日 05:49

顺便提一下，当 Google 索引同一域名下的两个网站时（例如你的例子中的 kirupa.com 包含相似内容），通常所谓的“惩罚”（严格来说并非真正的“惩罚”，更像是一种“规范选择”）是指 Google 的算法会选择其中一个页面作为规范页面，该页面将在搜索结果中排名更高。（Google 甚至可能将其判定为非规范的页面从索引中移除）。

Google 对此一直表述得很清楚：在大多数情况下，“重复内容惩罚”其实是个误解。这实际上关乎“规范化”和“选择”：

如果您的网站包含多个内容基本相同的页面，您可以通过多种方式向 Google 指明首选的 URL。（这称为“规范化”。）有关规范化的更多信息。（参考 1）

例如，如果您同时保留旧网站和新网站，可以使用 link canonical 标签告知 Google 您的新网站是 规范网站，Google 随后将优先索引您的新网站。

更好的解决方案是允许搜索引擎抓取这些 URL，但通过使用 rel="canonical" 链接元素、URL 参数处理工具或 301 重定向将它们标记为重复内容。在重复内容导致我们过度抓取您的网站的情况下，您还可以在 Search Console 中调整抓取频率设置。（参考 1）

示例：

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

@kirupa，你还问道：

Google 是否将每个主题视为一个可索引的“页面”？我之所以这么问，是因为我们论坛中很大一部分主题并未出现在 Google 的数据库中。

关于 Google 与无限滚动，我推荐一篇非常棒（但略显过时）的讨论，来自 Google 官方 Webmaster Central 博客（参考 2）：

@kirupa，一种实用（而非理论）的验证方法是使用 GSC（Google Search Console）查看其提供的“截图”，以了解它们如何呈现您的页面。这可以通过 GSC 中的“检查移动端友好度”功能轻松实现（例如）；如果您在 Discourse 中发布了一篇非常长的帖子，可以检查 Google 索引（读取并索引）了多少内容。关于无限滚动以及 Google 如何索引这些页面，存在许多不同观点。您可以使用 GSC 检查自己的页面，亲自验证。

根据 Google 的 Martin Splitt（参见参考 3）在 2020 年 4 月 14 日的说明：

Splitt 举例说明了一个依赖无限滚动（也称为“懒加载”）来加载新内容的新闻网站。

这意味着网页（在此例中为首页）在访客滚动到屏幕底部之前不会加载额外内容。

Splitt 解释了这为何是个问题：“Googlebot 不会做什么？它不会滚动。”

Googlebot 的做法是访问页面并抓取立即可见的内容。

根据 Splitt 的陈述，Googlebot 无法抓取仅在页面滚动后才加载的内容。

如前所述，@kirupa，您可以使用 GSC 中的工具检查自己的页面，这些工具将展示 Google 如何查看（并索引）您的页面的快照。

根据 Google 的 Splitt 在 2020 年 4 月的说法：“Googlebot 不会滚动。”（转述）

关于“Google 搜索索引与 Discourse”这一主题问题，每位网站所有者都可以轻松使用 GSC 来确定 Googlebot 如何索引特定页面。

我的建议是，如果您有任何关于 Googlebot 如何索引您页面的疑问，请使用 GSC（Google Search Console）检查自己的页面。希望这能对您有所帮助。

参考：

话题		回复	浏览量
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5743	2024 年6 月 1 日
1 million Topics - Takes millions of days to get indexed without Sitemap in Robots Support	3	2666	2017 年2 月 20 日
Google Not Indexing Discourse Forum – Sitemap Not Approved Support seo	4	314	2025 年4 月 1 日
SEO - Pages crawled but not Indexed Support seo	4	224	2025 年9 月 23 日
Removing the /2, /3, /4, etc links for each reply within a topic URL Development seo	33	4403	2024 年10 月 13 日

Google搜索索引与话语

相关话题