robots.txt 格式错误导致索引问题

大家好,

我们刚刚发现我们的 Discourse 论坛未被 Google 索引(我们记得大约一年前它曾被索引),我们正在尝试立即修复。我们需要确保哪些配置设置正确?

这是我到目前为止所做的:

  1. 我确认了 “允许在 robots.txt 中索引” 选项已被 勾选

  2. 我已将以下域名添加到 “排除 rel nofollow 域名” 列表中:

    • grakn.ai(我们的主站域名)
    • discuss.grakn.ai(我们的 Discourse 论坛域名)
  3. 我确认了 “为用户内容添加 rel nofollow” 选项已被 取消勾选

  4. 我已将 Googlebot 添加到 “白名单爬虫用户代理” 列表中

我是否还遗漏了其他需要设置的配置?

我们的 Google Search Console 显示 discuss.grakn.ai 仍无法被爬取,因为它被 robots.txt 阻止了——请见下方截图。

提前感谢大家的帮助!!!!

管理> 设置> 启用 robots.txt

您的论坛 robots 文件地址:https://discuss.grakn.ai/robots.txt

登录 Google 搜索控制台并检查:https://www.google.com/webmasters/tools/robots-testing-tool

默认开箱设置下,此功能完全正常。您在最初安装时是否修改过这些设置?

robots.txt 文件中包含以下文本,这可能会导致爬虫出现问题:

User-agent: *
Disallow: /
Noindex: /

不过,Google 仍在索引页面:

这可能是因为 Googlebot 正在查看您针对 Google 的特定规则,而 Webmaster Tools 正在就通配符向您发出警告。

(我不确定哪些设置会导致生成这样的 robots.txt 输出。)

是的。

  1. 访问:https://discuss.grakn.ai/admin/customize/robots

  2. 删除以下内容:

    User-agent: *
    Disallow: /
    Noindex: /

  3. 进入 Google Search Console:https://www.google.com/webmasters/tools/robots-testing-tool

选择一个已验证的资源,并再次向 Google 提交 robots.txt 文件。

我认为这样应该可以解决问题。

最后,移除以下代码块解决了问题。

User-agent: *
Disallow: /
Noindex: /

非常感谢 @j127@tohaitrieu!!!

Google Search Console 现在显示 discuss.grakn.ai 已排入索引队列。

祝好!

我不太清楚你是如何变成这种状态的。你是否更改了与爬虫相关的默认站点设置?

我也不清楚我们是如何陷入上述状态的,@codinghorror。过去一年我一直担任该网站的管理员,并未对与上述内容相关的任何事项进行修改。我确实记得很久没有进行过升级,而在上述问题开始发生前不久进行了一次升级,但我不确定这是否有关联。