让爬虫远离预发布站点

一位拥有预发布站点的客户担心其站点可能会被爬虫抓取。(虽然爬虫需要主动查找他们的域名,但如果爬虫偶然发现了指向该站点的链接,那么该站点就可能被抓取。)

当然,解决方案是启用 allow_index_in_robots_txt 和/或 login_required,但这意味着每次从生产站点恢复备份到预发布站点时,都需要记得重置这些设置。

这两个设置均未被 shadowed by global

我目前想到的解决方案是:让 app.yml 修改 site_settings.yml,为其中一个变量添加 shadowed_by_global 属性,或者创建一个插件来设置这些值。

我是否遗漏了什么?

2 个赞

很有可能 shadowed_by_global 很快就会被“每个设置都可以被覆盖”所取代。:crossed_fingers:

5 个赞