搜索引擎被禁止索引非规范页面非规范

关于 noindex 的更多信息来自 Google 文档:


请参阅 Crawl Budget Management For Large Sites | Google Search Central  |  Documentation  |  Google for Developers


请参阅 How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

请参阅 How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

3 个赞

此命令似乎不起作用。我今天更新了一个较小的 Discourse 站点进行测试,运行了该命令,但仍然看到 noindex 标头。


编辑:我不确定该设置如何工作,但至少从前端(作为管理员)在浏览器控制台中看不到它:

var d = Discourse.SiteSettings;
document.body.innerHTML = `<pre>${JSON.stringify(d, null, 4)}</pre>`;

看起来该设置是针对 robots.txt,而不是 noindex。大多数 Discourse 站点上不应该已经是 true 了吗?

2 个赞

哦抱歉,正确的应该是 SiteSetting.allow_indexing_non_canonical_urls。我在 OP 中已修复。

3 个赞

在继续分析此更改带来的问题后,我们决定根据以下内容进行回滚:

这样做的目的是通过 Google 扫描非规范主题链接来限制抓取预算。

自应用此更改以来,我们已推出 2 项修复,使该更改变得不必要。

  1. 主题 RSS Feed 不再被跟踪,RSS Feed 中的链接也不会被跟踪。例如:https://meta.discourse.org/t/search-engines-now-blocked-from-indexing-non-canonical-pages/218985.rss

  2. 博文 RSS Feed 现在包含规范链接。例如:https://meta.discourse.org/posts.rss

这两项更改结合起来意味着爬虫不再会发现 Discourse 网站上的大量非规范链接。

这释放了搜索预算,并且不再需要此站点设置。站点管理员仍然可以自由尝试它,但默认情况下它是禁用的。

13 个赞