robots.txt 格式错误导致索引问题

haikalpribadi · 2019 年8 月 19 日 11:13

大家好，

我们刚刚发现我们的 Discourse 论坛未被 Google 索引（我们记得大约一年前它曾被索引），我们正在尝试立即修复。我们需要确保哪些配置设置正确？

这是我到目前为止所做的：

我确认了 “允许在 robots.txt 中索引” 选项已被 勾选
我已将以下域名添加到 “排除 rel nofollow 域名” 列表中：
- grakn.ai（我们的主站域名）
- discuss.grakn.ai（我们的 Discourse 论坛域名）
我确认了 “为用户内容添加 rel nofollow” 选项已被 取消勾选
我已将 Googlebot 添加到 “白名单爬虫用户代理” 列表中

我是否还遗漏了其他需要设置的配置？

我们的 Google Search Console 显示 discuss.grakn.ai 仍无法被爬取，因为它被 robots.txt 阻止了——请见下方截图。

提前感谢大家的帮助！！！！

tohaitrieu · 2019 年8 月 19 日 13:01

管理> 设置> 启用 robots.txt

codinghorror · 2019 年8 月 20 日 03:21

默认开箱设置下，此功能完全正常。您在最初安装时是否修改过这些设置？

j127 · 2019 年8 月 20 日 05:49

robots.txt 文件中包含以下文本，这可能会导致爬虫出现问题：

User-agent: *
Disallow: /
Noindex: /

不过，Google 仍在索引页面：

这可能是因为 Googlebot 正在查看您针对 Google 的特定规则，而 Webmaster Tools 正在就通配符向您发出警告。

（我不确定哪些设置会导致生成这样的 robots.txt 输出。）

tohaitrieu · 2019 年8 月 21 日 04:30

是的。

选择一个已验证的资源，并再次向 Google 提交 robots.txt 文件。

我认为这样应该可以解决问题。

haikalpribadi · 2019 年8 月 21 日 23:53

最后，移除以下代码块解决了问题。

User-agent: *
Disallow: /
Noindex: /

非常感谢 @j127 和 @tohaitrieu！！！

Google Search Console 现在显示 discuss.grakn.ai 已排入索引队列。

祝好！

codinghorror · 2019 年8 月 22 日 00:20

我不太清楚你是如何变成这种状态的。你是否更改了与爬虫相关的默认站点设置？

haikalpribadi · 2019 年9 月 14 日 16:46

我也不清楚我们是如何陷入上述状态的，@codinghorror。过去一年我一直担任该网站的管理员，并未对与上述内容相关的任何事项进行修改。我确实记得很久没有进行过升级，而在上述问题开始发生前不久进行了一次升级，但我不确定这是否有关联。

话题		回复	浏览量
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	269	2024 年12 月 18 日
Google changed how they process robots.txt in Discourse? Support	20	1798	2020 年12 月 22 日
Pages listed in the robots.txt are crawled and indexed by Google Support	18	3393	2019 年7 月 30 日
Generic rules in "robots.txt" not picked up by Googlebot Support	5	1038	2022 年3 月 3 日
Google notification to remove "noindex" statements from robots.txt Support	7	2494	2019 年7 月 30 日