kirupa
(Kirupa Chinnathambi)
2020 年6 月 8 日 21:54
1
大家好!
我阅读了关于 Google 爬虫在索引 Discourse 论坛方面没有任何困难的各类帖子。我的问题略有不同:每个主题是否都被 Google 视为可索引的“页面”?我之所以这样问,是因为我们论坛中很大一部分主题并未出现在 Google 的数据库中。这一点可以通过查看 Google Search Console 数据得到证实:
目前只有大约 17,000 条记录,而 我们的论坛 拥有数十万甚至可能数百万个主题。robots.txt 错误是针对那些确实不应被索引的页面。这看起来像是爬虫没有像预期那样自动访问所有较旧的主题。
是否有某个设置需要切换,以确保更多旧主题能够及时被索引?对于首屏内容,Google 的索引和搜索结果都非常好。这个问题仅影响那些位于首屏以下的主题。
谢谢,
Kirupa
Falco
(Falco)
2020 年6 月 8 日 22:08
2
为了进行一项实验,我使用 GoogleBot 用户代理字符串通过爬虫视图加载了 Meta 站点。然后一直浏览到我们最新列表的第 666 页,这些主题最后更新于 2017 年年中,距今已近 3 年。
列表中的一个主题是 在 Ionic 应用中深度集成 Discourse 。我使用未登录状态的 Google 搜索,搜索“integration discourse ionic”时,该主题竟排在结果的第一位!!
Meta 是一个“小型”实例,主题数量不足 3 万个,但所有主题似乎都被正确索引。由于这是一个老域名,并且我们是所有与 Discourse 相关内容的排名第一结果,因此我们在 GoogleBot 那里获得了足够的“信誉”,使得爬虫能在我们的域名上运行足够长的时间,以抓取所有必要的内容。
您的论坛是否从旧软件迁移到了 Discourse?
sam
(Sam Saffron)
2020 年6 月 8 日 22:14
3
如果您需要加快索引速度,可以尝试使用站点地图插件。
标准爬取会抓取所有内容,但站点地图可能有助于更快地将内容纳入索引。
如果您这样做了,请分享结果。
另外,能否提供 5 个您论坛上的优质原创内容示例,这些内容在 Google 上完全找不到?
Stranik
(Evgeny)
2020 年6 月 8 日 22:46
4
也许谷歌还会关注帖子的访问量(如果有计数器的话),或者该帖子包含有活跃跳转的链接。谷歌可能不会访问它认为对用户“不感兴趣”的某些页面。这里有一个技巧,通常可以这样操作:这是 SEO 的做法。从其他资源放置一个链接并点击它。你不需要太多,只需几次(跳转)通常就足以引起谷歌的兴趣。人们去哪里,它就去哪里。
在大型谷歌站点上,仅仅知道页面存在是不够的。它需要更多的信号:活跃度、点击率、浏览量等。
kirupa
(Kirupa Chinnathambi)
2020 年6 月 9 日 04:54
5
@Falco - 是的,论坛确实从 vBulletin 迁移过,但那是在 2014 年底。我已移除所有指向旧论坛的公开链接,因此不存在因重复内容导致搜索引擎索引不良的风险。
@sam - 是的,这里有几个例子:
所有这些帖子都是我过去三年中曾在 Twitter 或公共 Facebook 页面上发布过的,因此它们并非被永久埋藏或隐藏。
关于站点地图插件,让我试试看。我会发布我所能找到的任何数据。感谢大家抽出时间提供帮助
此致,
Kirupa
Falco
(Falco)
2020 年6 月 9 日 05:00
6
这是我搜索“js 使用生成器动画示例”得到的第三个结果。
kirupa
(Kirupa Chinnathambi)
2020 年6 月 9 日 05:07
7
这也许是我今天发布的一个糟糕的例子,因为我几个小时前手动提交该页面进行索引作为测试。这是其中一个论坛管理员在 7 小时前针对该搜索词看到的内容:
你说得对,它目前确实是排名靠前的结果之一。我想知道手动索引是否与此有关。
编辑 :我刚刚设置了 Sitemap 插件,并将提交站点地图供 Google 索引!
neounix
(Dark Matter)
2020 年6 月 9 日 05:49
8
你好 @kirupa ,
顺便提一下,当 Google 索引同一域名下的两个网站时(例如你的例子中的 kirupa.com 包含相似内容),通常所谓的“惩罚”(严格来说并非真正的“惩罚”,更像是一种“规范选择”)是指 Google 的算法会选择其中一个页面作为规范页面,该页面将在搜索结果中排名更高。(Google 甚至可能将其判定为非规范的页面从索引中移除)。
Google 对此一直表述得很清楚:在大多数情况下,“重复内容惩罚”其实是个误解。这实际上关乎“规范化”和“选择”:
如果您的网站包含多个内容基本相同的页面,您可以通过多种方式向 Google 指明首选的 URL。(这称为“规范化”。)有关规范化的更多信息。 (参考 1)
例如,如果您同时保留旧网站和新网站,可以使用 link canonical 标签告知 Google 您的新网站是 规范网站,Google 随后将优先索引您的新网站。
更好的解决方案是允许搜索引擎抓取这些 URL,但通过使用 rel="canonical" 链接元素、URL 参数处理工具或 301 重定向将它们标记为重复内容。在重复内容导致我们过度抓取您的网站的情况下,您还可以在 Search Console 中 调整抓取频率设置 。(参考 1)
示例:
<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />
@kirupa ,你还问道:
Google 是否将每个主题视为一个可索引的“页面”?我之所以这么问,是因为我们论坛中很大一部分主题并未出现在 Google 的数据库中。
关于 Google 与无限滚动,我推荐一篇非常棒(但略显过时)的讨论,来自 Google 官方 Webmaster Central 博客(参考 2):
@kirupa ,一种实用(而非理论)的验证方法是使用 GSC(Google Search Console)查看其提供的“截图”,以了解它们如何呈现您的页面。这可以通过 GSC 中的“检查移动端友好度”功能轻松实现(例如);如果您在 Discourse 中发布了一篇非常长的帖子,可以检查 Google 索引(读取并索引)了多少内容。关于无限滚动以及 Google 如何索引这些页面,存在许多不同观点。您可以使用 GSC 检查自己的页面,亲自验证。
根据 Google 的 Martin Splitt(参见参考 3)在 2020 年 4 月 14 日的说明:
Splitt 举例说明了一个依赖无限滚动(也称为“懒加载”)来加载新内容的新闻网站。
这意味着网页(在此例中为首页)在访客滚动到屏幕底部之前不会加载额外内容。
Splitt 解释了这为何是个问题:“Googlebot 不会做什么?它不会滚动。”
Googlebot 的做法是访问页面并抓取立即可见的内容。
根据 Splitt 的陈述,Googlebot 无法抓取仅在页面滚动后才加载的内容。
如前所述,@kirupa ,您可以使用 GSC 中的工具检查自己的页面,这些工具将展示 Google 如何查看(并索引)您的页面的快照。
根据 Google 的 Splitt 在 2020 年 4 月的说法:“Googlebot 不会滚动。” (转述)
关于“Google 搜索索引与 Discourse”这一主题问题,每位网站所有者都可以轻松使用 GSC 来确定 Googlebot 如何索引特定页面。
我的建议是,如果您有任何关于 Googlebot 如何索引您页面的疑问,请使用 GSC(Google Search Console)检查自己的页面。希望这能对您有所帮助。
参考:
How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central | Documentation | Google for Developers
Official Google Webmaster Central Blog: Infinite scroll search-friendly recommendations
Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems
kirupa
(Kirupa Chinnathambi)
2020 年6 月 9 日 06:39
9
非常感谢你的精彩回复,@neounix !我稍后会逐一查看并采纳你的建议
暂时恢复旧论坛(kirupa.com/forum)的显示,并在新/活跃论坛上添加规范元标签,这似乎是个好主意。我本周会尝试一下。
在此期间,我已向 Google 搜索控制台提交了一个包含约 30 万条记录的站点地图。
neounix
(Dark Matter)
2020 年6 月 9 日 06:59
10
亲爱的 @kirupa ,
不客气。
供您参考。
Discourse 论坛已经为各个主题自动添加了规范标签。
这是您论坛的一个链接,以及源代码中显示其规范标签的示例(见上文):
您可以看到您的 Discourse 页面已经包含规范标签。
一个“技巧”(虽不受官方支持但可行)是在您的“旧论坛”中添加相同的标签(指向新论坛),或者至少确保您的旧论坛不包含规范标签。
不过,说实话,要在旧论坛的数据库中找到对应 Discourse 论坛的正确主题 ID 需要一些工作(我们曾出于其他原因做过类似的事情,因此根据我们的经验,这是可行的,因为我们目前在两个论坛中都使用这些信息)。
Discourse 中有一个名为 post custom fields 的数据库表,其中包含了从旧论坛(主题和帖子 ID)到新论坛的映射关系;如果您愿意,可以从 Discourse 中导出这些数据,并将其添加到您的旧论坛中。
然后,如果您愿意(我并非推荐某种特定方式),就可以根据您的 SEO 策略以及您希望如何处理此事,轻松地在旧论坛中创建指向新 Discourse 论坛的规范标签。
有些人更倾向于对旧论坛页面进行 301 重定向。这完全取决于您以及您希望如何管理这些内容!请记住,如果您希望进行 301 重定向,同样需要获取 Discourse 主题(及帖子)ID 与旧论坛主题和帖子 ID 之间的映射关系。
希望这个快速跟进能对您有所帮助,@kirupa 。
祝好,并祝您愉快!