我在Google Search Console中遇到关于错误的话语结构(或者是对我网站管理不当)的各种问题

在最初的恐慌(一个人发现过去近半年,谷歌根本没关注他的网站,他甚至不知道这件事!!)过去之后,
我将尝试在此列出与 Discourse 代码相关的、即 neither Google nor I (afa I can say) can fix, but Discourse team can fix 的原因。

点击“Video Indexing Report”时:

点击“Enhancements\u003e Videos”链接时:

请帮助。

早期发现问题时(以上内容均可跳过)::

在流失了几个月用户后,今天我发现我的网站被谷歌屏蔽/禁止了!!!

更早之前,我是如何发现这个问题的(以上内容均可跳过):

在提问之前,我几乎阅读了这个元话题的全部内容。

2024年8月,我注意到我的网站流量减少了高达95%。但我忽略了它,以为可能是我发布的内容不够多。

但今天我发现,无论我在谷歌上搜索什么词,并将搜索范围限定在我的网站内:***site:BathindaHelper.com jobs in bathinda***,结果都为零(它显示的唯一来自我网站的结果实际上只是一个建议,让我创建谷歌广告来展示这个结果,这表明我的网站确实已被索引):


最后,我还检查了Google Analytics(可能已重命名为Google Events),它清楚地显示,自2024年6月17日以来,谷歌已不再向我的网站引流。

当您创建网站时,是启用了强制登录还是停止显示 TL0+ 主题?Google 只有在网站对全世界可见时才能使用它。或者您阻止了 Google 的用户代理。

这是否是您遇到 DNS 问题的同一个论坛?

2 个赞

您是因为 Site does not appear in google searches - #2 by Bathinda 问的吗?我认为下面的回复正在回答发帖人的问题。

1 个赞

我错误地使用了“force”一词。(我的意思是我想让 Google 搜索从我自己的网站 BathindaHelper.com 生成搜索结果)

  • 我没有使用任何异常/强制方法创建我的网站。
  • 我没有故意调整任何与 TL0+ 或相关的内容。
  • 在过去的半小时里,我发现(在一些其他一两个小问题中)我的 robots.txt 文件是罪魁祸首,但我(还)没有找到如何解决这个问题。
  • 我不记得有 DNS 问题(您是在说很久以前的事情吗?)。我的网站运行正常,只是当我/管理员强制刷新我的浏览器时,有时需要近 30 到 50 秒才能打开,但之后就可以正常工作了。

感谢您的回复。

编辑:
我已“取消选择”robots 文件选项:

但我无法确定 Google Search Console 现在是否报告一切正常:

是的,我完全错过了订单。现在我们看到了一个演示,说明当

  • 回答了旧话题
  • 离题
  • 用户不阅读话题 :joy:
    会发生什么。

是的,我的错。

2 个赞

查看这些设置:

  • 允许的爬虫用户代理
  • 阻止的爬虫用户代理

但据我所知,Discourse 本身并没有像大多数网站那样拥有纯粹的 robots.txt 文件,而是通过一些奇怪的 Ruby 程序实现的,而且管理员可以调整的设置并不多。除了这两个设置之外,还可以减慢爬虫的速度。

那只是我和我那不听使唤的手指 :man_facepalming:

1 个赞

您是现在禁用了还是在索引停止之前禁用了?

在 robots.txt 中指定允许搜索引擎索引此网站。

如果您不允许搜索引擎索引您的网站,那么它们不索引也就不足为奇了。

3 个赞

我会照做并报告。

我在打开此主题后禁用了它(大约在 30 分钟前)。虽然这个问题已经存在 3 个月了。但我无法独立验证“取消选择”是否能够修复“Google 索引”错误。

我怀疑如果我不通过 Robots.txt 禁用/阻止网站,那么所有网站都被允许吗?还是相反,如果我不通过 Robots.txt启用网站,那么所有网站都被阻止索引?

我完全忘了。你应该选择它。如果你不使用它,那么你必须手动检查和编辑 robots.txt,以确保它能按你想要的方式引导机器人。

但你可以看看那里是否有任何东西会阻止 Google。

1 个赞

好的。
这意味着所有 discourse 用户(通常)都需要指定/提供“Robots.txt”文件。
然后,我明天会详细阅读关于此主题(如何以及在此文件中应包含什么)的内容。

其次,如果解释起来不复杂,您能否告诉我一种简单的方法,通过该方法我可以在我的 Discourse 管理面板中调整一些设置,同时实时检查 Google 是否能够自由访问(然后索引)我的网站,或者它是否仍然收到“禁止访问 - 403”错误?!

编辑:虽然我现在/以后会自己尝试在谷歌上查找类似资源。

嗯,不是的。这意味着管理员通常会启用 robots.txt 以避免手动调整 :wink: 但当然,被阻止的机器人列表等是管理员想要修改的内容。

2 个赞

请检查您的 blocked_crawler_user_agents 设置是什么?

1 个赞
  1. 此设置如下(我没有更改任何内容)

  2. 昨天我在这里写了这两个域名 google 和 google.com,作为实验,我不知道这是否会优先于“Blocked Crawler User Agents”。或者这是否解决了我的问题(因为谷歌说它已将我的爬行/索引请求加入队列,可能需要 2-3 天)

  3. 您可以在此处找到我的 'Robots.txt’

如果所有 3 个设置有冲突,请告知我哪个具有优先权。

这不应该有任何影响,因为 Google 使用“Googlebot”及其变体进行抓取:

3 个赞

Indeed that had the main effect!!

Thanks you all, big thanks for helping me resolveding the main big issue, by using this setting:

But for so many other (small) issues affecting Google indexing, explained by me in the first post of this very meta topic, I’d like to keep the topic open.

Also, I’d be obliged if someone could tell what if I’ve blocked Crawer-1 of a site under blocked Crawler User Agents and at the same time allow the same under Allowed Crawler User Agents.
And what if I’ve allowed it under Allowed... but blocked it thru Robots.txt. What DOES take priority.
确实是主要原因!!

感谢大家,非常感谢你们通过使用此设置帮助我解决了这个主要大问题:

但是,关于我在此元话题首帖中解释的许多其他(小的)影响 Google 索引的问题,我想保持该话题开放。

另外,如果有人能告诉我,如果我在“阻止的爬虫用户代理”下阻止了某个站点的爬虫-1,同时又在“允许的爬虫用户代理”下允许了它,会发生什么。
如果我在“允许…”下允许了它,但通过 Robots.txt 阻止了它,又会怎样。哪个优先级更高。

必须删除 compatible。它几乎会阻止所有内容,包括 Googlebot。正因为如此:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

如果您在 Facebook 上分享话题,阻止 Facebook 也不是个好主意。

您在阻止列表中使用的任何内容都会阻止用户代理字符串中包含该词的所有机器人。所以,请注意。

3 个赞

也许这就是为什么我在尝试通过 Google Search Console 抓取/索引任何主题(主页除外)时仍然收到错误的原因:

但是,即使“compatible”被阻止,为什么只有主页才能被 Google Search Console 访问,如下所示:

我刚刚删除了“Compatible”,会回来报告。

终于!!! 似乎已经克服了主页/首页和独立主题的“禁止”错误,其中 90% 的帮助来自您,10% 来自我的实验。非常感谢。

在从“阻止的爬虫”列表中删除“兼容”后,我在另一项设置下发现了一条注释,愚蠢的是我忽略了它,它基本上要求用户不要在“允许的爬虫用户代理”中填写任何值,除非您非常确定自己在做什么。所以问题就在这里!忽略大写写的警告给我带来了几个月谷歌忽略我的网站和很多麻烦:


对于任何遇到 Google Search Console 中访问被禁止-403 错误的人:

  • 主要有 2 件事解决了我的问题,一是从“阻止的爬虫列表”中删除“兼容”,二是
  • 清空(如默认设置)“允许的用户爬虫代理”设置。

该主题将保持开放,以供其他 G 搜索问题(尽管不如这个问题关键)讨论。

1 个赞