仅阻止来自嵌入式主题的爬虫吗?

除了手动设置之外,是否可以设置 robots.txt 来阻止所有 WP-Discouse 连接的论坛帖子?
(以便论坛帖子不被索引)

一个简单的切换选项,可以阻止所有连接的论坛帖子被抓取?或者在发布或编辑与 wp-discourse 论坛帖子关联的 WP 帖子时,提供每个帖子的切换设置?

你为什么要这样做?我相当确定论坛帖子包含了指向你 WP 网站上规范版本的指针。

2 个赞

自添加以来,WP 文章(原始内容)的排名/声誉有所下降。我无意开始辩论或抱怨,只是想知道如何实现这一点。我相信还有许多其他原因导致其他人希望拥有这种级别的索引控制。

1 个赞

只是建议——也许你应该重新定义你的目标,因为你正朝着错误的方向前进。

但是,使用反向代理可以轻松完成这项任务。

并非所有网络爬虫都遵守 robots.txt 文件。

3 个赞

@haydenjames

WP Discourse 插件中,您无法在 Discourse 中创建的帖子添加到 robots.txt 文件中。这实际上是一个纯粹的 Discourse 问题,即“我可以自动不对嵌入式主题使用 noindex 吗?”(或类似的话)。从 WordPress 嵌入的主题在功能上与其他嵌入式主题相同。您想探索的途径是存在的,例如 embed set canonical url 站点设置的来源以及相关的讨论。

我认为(但欢迎纠正)您想做的事情目前不是 Discourse 的功能。Discourse 目前会向隐藏主题的 GET 请求添加 X-Robots-Tag: noindex 标头。您可以通过插件为嵌入式主题执行相同的操作。

4 个赞

将论坛主题的索引定向到不正确的方向,以阻止对重复文章进行索引,而我更希望 Google 搜索用户通过 WP 博文找到该文章? 我对此没意见。对我来说,Wp-discourse 的主要好处是允许讨论博文,而无需使用 Disqus 或非常有限的默认 WP 评论等解决方案。除非有其他未与现有内容关联的独特主题,否则我不需要论坛的任何 SEO 优势。

没有重复项,除非您已更改某些内容。

因为:

和:

1 个赞

谢谢 @angus

澄清一下,如果我将存储 WP-discourse 连接帖子的类别设为隐藏(隐藏与私有不同吗?),那么它将从论坛/公众/爬虫那里隐藏帖子,但 Wordpress 博文末尾插入的评论仍然可见吗?

抱歉问了这么多新手问题,我对 Discourse 没有经验,想确保我没有误解您的回复。

……这取决于你对重复的定义。规范已到位,但对我个人而言,由于博客文章和论坛帖子都包含完全相同的粘贴/文本(重复)。我只想完全阻止这些帖子。这只是我的个人偏好。也许将来,这个话题背后的原因会更有意义。但现在,我真的不是想挑起辩论什么的。我认为阻止对我来说是一个更绝对的解决方案。

这就像去你的机械师那里,让他“换两次机油”。我理解@angus 最初的“为什么”,但最终,这只是关于是否能以某种方式完成,或者是否不可能。

编辑:现在想来,我是否可以将博客文章论坛类别添加到 robots.txt,对吗?或者它会被覆盖吗?(我将在论坛上搜索 Discourse 的 robots.txt 如何工作/如何编辑。)

所以类似:
forum.domain.com/c/blog-articles/xx/*

“隐藏”主题是指未在主题列表中列出的主题,即它不能以常规方式“发现”。您可以通过带斜线的眼睛符号来识别隐藏主题。

实际上,有一个方法可以自动将 WP Discourse 插件中的帖子设置为“隐藏”:slight_smile: 您可以使用“发布为未列出主题”设置。

请记住我上面所说的以及该设置旁边的说明。这意味着从 Discourse 发布到 Wordpress 的主题不会出现在您论坛的主题列表中。评论将按正常方式工作。如果您启用了同步评论数据 webhook,则在收到第一条评论后,该主题将不再隐藏。该功能并非完全为此目的而设计。请参阅更多内容

如果您只想为嵌入式主题添加 X-Robots-Tag: noindex 标头(而不必担心隐藏问题),您需要将其作为 Discourse 的新功能请求,或通过插件添加。

2 个赞

这很棒。感谢您澄清并分享 WP Discourse 设置。

问题:如果我手动编辑我的 Discourse robots.txt 文件。更改会一直保留吗?

我仍在论坛上搜索答案。找到答案后会插入相关链接。

如果您通过 /admin/customize/robots 进行操作,它将保留。

它会存储在一个名为 overridden_robots_txt 的隐藏站点设置中。如果该设置有值,它将始终作为您的 robots.txt 文件提供。

2 个赞

@haydenjames 我要指出的最后一点是,最近嵌入式主题的规范 URL 似乎出现了一个问题。如果您最近才注意到这个问题,请记住这一点。

1 个赞

谢谢。啊,没那么简单,因为每个帖子的 URL 中都不包含分类。所以必须手动/逐个添加。

好的,谢谢。这部分原因也是我希望通过 robots.txt 采取“核方法”,直接阻止所有 WP-Discourse 嵌入帖子。这些事情可能会发生。可以理解。

我的定义,或者你的定义,都没有意义。只有谷歌的定义才重要。然后就没有重复了。

也有可能谷歌更看重你的论坛而不是WordPress。那么解决方案不是试图阻止索引,而是修复那个源头。

1 个赞

即使 rel=canonical 标签可以帮助您避免在重新发布帖子时受到重复内容处罚,但如果滥用该标签,您仍然会受到处罚。我会找到一个解决方案。稍后会在此帖子中跟进。