哪些情况会导致帖子无法被搜索引擎抓取?

哪些条件会导致帖子无法被搜索引擎抓取?

在主题的生命周期中,在什么情况下它会被搜索引擎爬虫抓取/索引?

我想到的一些可能性(可能还有其他未提及的情况)包括:

  • 当原始主题被起草、提交并被“受关注词汇”过滤器捕获(被阻止或需要审核)时
  • 当主题被设为“不公开”时,它是否会被移除出“可抓取”状态
  • 当主题被删除时,它是否会被移除出“可抓取”状态
  • 当某条帖子被标记时,它是否会被移除出“可抓取”状态

我想这个问题或许可以通过说明哪些条件会导致帖子不可抓取来回答。

是的,以上所有内容均正确。另一个可能导致主题无法被爬取的原因是将该主题放入一个配置为不允许匿名用户访问的分类中。通过启用“需要登录”站点设置,可以使 Discourse 站点上的所有主题无法被爬取。

您还可以通过禁用“允许在 robots.txt 中索引”站点设置来防止您的站点被爬取。该设置默认是启用的。