为什么 robots.txt 中有很多 Disallow 规则?

只是重新激活这个讨论。

  1. 现在,如果您愿意,可以随意编辑 robots.txt 文件。

  2. 对于不应被索引的页面,我们始终提供 x-robots-tag noindex 标签。

  3. 事实证明,如果不在 robots.txt 中提供严格指导,某些爬虫会对网站“大肆扫荡”,并非所有爬虫都像 Google 那样守规矩。如今我们的 robots.txt 文件非常基础,但这付出了代价。(我们期望所有爬虫都能像 Google 一样守规矩,但要成为 Google 需要付出巨大努力。)

我认为我们至少应该默认恢复对所有非 Googlebot 的“非常严格”的 robots.txt 设置。

4 个赞