发现旧话题:用吸管喝湖水

TL;DR:是否有任何插件或设置可以在主题底部添加随机主题选择(不仅仅是最近的主题),即使在未登录的情况下,以便爬虫可以发现所有较旧的主题?

在将旧论坛合并到当前论坛后,我遇到了“可发现性”的奇怪问题。

在类别和最新视图中,您只能看到最新的主题。就像湖面一样。视图仅包含有限数量的帖子,无限滚动使得“深入”变得困难。

拥有多个类别可以拓宽“稻草”,但即使您有大约 50 个类别并且查看深度为 100,那也只能深入 5000 个主题。

只有 1%-2% 的主题是可访问的,其余的都隐藏在水面之下。

我曾以为 sitemaps.xml 可以提供帮助,但在默认配置中,它们只暴露了少数主题。

大块内容实际上被爬虫阻止了。

我想知道,是否有任何插件或设置可以在主题底部添加随机主题选择(不仅仅是最近的主题),即使在未登录的情况下,以便爬虫可以发现所有较旧的主题。

1 个赞

爬虫程序应使用站点地图。不要随机抓取。

2 个赞

您是否考虑过置顶旧帖子?这似乎是一种更容易的方式来重新发布旧帖子,而无需创建插件或其他东西。

在类别设置中,您可以找到这些设置

这在这里的元(meta)上效果很好,因为它会带回旧帖子,然后可以“更新”最新信息/关闭。这也是一种策划内容的好方法。这是2020年的一篇被置顶的帖子的示例:

1 个赞

品味不同,系统置顶的好坏。或者说,它是为了机器人而不是为了人类而做的。

在这里,置顶的话题让我非常恼火。我不知道为什么我应该看到过时的帖子,因为有一些不实际的需要来关闭它们。

1 个赞

等等……什么?你为什么会这么想?

我查看了生成的站点地图,sitemap_1.xml 中只有半个月的帖子。sitemap_recent.xml 中的帖子更少。

您检查过 sitemap_2.xml 等文件了吗?

因此,名称中才有“recent”(最近)一词。

这就是问题所在,除了 sitemap_1.xml 之外,没有其他站点地图页面,而该页面包含的网址少于设置中指定的 10k 个最大网址。

我知道,我提到它以防人们认为我指的是那个文件。

也许我会看看是否能以某种方式重新触发站点地图生成。

并且所有缺失的主题都是公开的吗?你能发帖或私信告诉我关于哪个论坛吗?

绝大多数主题都是公开的。

我看到 sitemap_1 包含最多 10k 个网址(大约一小时前生成)。没有其他站点地图页面。我将等待 15 分钟,届时应该会进行下一次计划的生成,看看其他页面是否会出现。

我在 Sidekiq 中看到再生作业确实运行了,但我不知道为什么它只生成 sitemap_1.xml 而不是其他页面。

Jobs::RegenerateSitemaps 48 分钟前 OK 257ms 11 分钟后 default

如果 11 分钟后计划的再生作业无法解决问题,我可以私信您论坛链接。我还将其增加到 50k 个网址,所以即使它不生成更多页面,单个页面至少也会有 5 倍的网址数量。

编辑:只是一个更新。该作业确实运行了,并创建了新的、更大的 50k 站点地图,但同样只有一个页面。

编辑 2:在让它稳定了一段时间后,我很高兴地报告,在最近的作业中已生成了额外的站点地图页面。我不确定为什么它们在之前的作业中没有生成。

是的,但顶帖是非结构化的,而且又是一个薄弱的环节:即使你每天在 50 个类别中顶帖 100 次(这也会让论坛变得无用,因为它会顶掉所有近期内容),这也只占主题的 2%。

我想我可以在每个帖子的底部实现类似“推荐主题”的功能,但使用不同的算法来倾向于探索。

你绕过了一件事。推送仅在以下情况下有帮助

  • 有用的机器人正在抓取
  • 有用的机器人会跟踪此类链接

在大多数情况下,这不会发生。唯一的结果是惹恼用户——除非这些推送仅发生在非 JavaScript 版本中。

但有一个问题:你想要这一切仅仅是因为你的站点地图可能已损坏,还是你不信任站点地图?


我发现的与人工智能相关的议题是发现旧议题的最佳方式

2 个赞

我认为站点地图可以解决爬虫问题。我另开了一个话题来讨论如何在此帖子中提高可浏览性和可发现性:Easy ways to navigate and browse large categories? - #2 by Jagster

搜索性和可浏览性之间有一定程度的交叉,但它们略有不同。

修复的站点地图立即产生了影响:

编辑:只是想说 AI 题注好得吓人。我没想到它能很好地解读图表!

1 个赞