大家好,
我们刚刚发现我们的 Discourse 论坛未被 Google 索引(我们记得大约一年前它曾被索引),我们正在尝试立即修复。我们需要确保哪些配置设置正确?
这是我到目前为止所做的:
-
我确认了 “允许在 robots.txt 中索引” 选项已被 勾选
-
我已将以下域名添加到 “排除 rel nofollow 域名” 列表中:
- grakn.ai(我们的主站域名)
- discuss.grakn.ai(我们的 Discourse 论坛域名)
-
我确认了 “为用户内容添加 rel nofollow” 选项已被 取消勾选
-
我已将 Googlebot 添加到 “白名单爬虫用户代理” 列表中
我是否还遗漏了其他需要设置的配置?
我们的 Google Search Console 显示 discuss.grakn.ai 仍无法被爬取,因为它被 robots.txt 阻止了——请见下方截图。
提前感谢大家的帮助!!!!
默认开箱设置下,此功能完全正常。您在最初安装时是否修改过这些设置?
j127
4
robots.txt 文件中包含以下文本,这可能会导致爬虫出现问题:
User-agent: *
Disallow: /
Noindex: /
不过,Google 仍在索引页面:
这可能是因为 Googlebot 正在查看您针对 Google 的特定规则,而 Webmaster Tools 正在就通配符向您发出警告。
(我不确定哪些设置会导致生成这样的 robots.txt 输出。)
是的。
-
访问:https://discuss.grakn.ai/admin/customize/robots
-
删除以下内容:
User-agent: *
Disallow: /
Noindex: /
-
进入 Google Search Console:https://www.google.com/webmasters/tools/robots-testing-tool
选择一个已验证的资源,并再次向 Google 提交 robots.txt 文件。
我认为这样应该可以解决问题。
最后,移除以下代码块解决了问题。
User-agent: *
Disallow: /
Noindex: /
非常感谢 @j127 和 @tohaitrieu!!!
Google Search Console 现在显示 discuss.grakn.ai 已排入索引队列。
祝好!
我不太清楚你是如何变成这种状态的。你是否更改了与爬虫相关的默认站点设置?
我也不清楚我们是如何陷入上述状态的,@codinghorror。过去一年我一直担任该网站的管理员,并未对与上述内容相关的任何事项进行修改。我确实记得很久没有进行过升级,而在上述问题开始发生前不久进行了一次升级,但我不确定这是否有关联。