您好。我们网站已有中文版本,但遗憾的是,论坛话题未被百度收录。我注意到本论坛的话题在百度上收录顺利。在此向本论坛的管理员以及发起中文论坛的社区成员请教:你们采取了哪些措施,使百度能够索引论坛话题?
论坛于 4 月上线,所以我想这不是原因。黑名单爬虫设置与您的截图一致。此外,robots.txt 中也没有对百度爬虫的限制。
百度搜索引擎对此有何说法?据我所知,以前有一个专区(ziyuan.baidu),您可以在其中获取有关您网站被收录状态的详细信息。
Discourse 无需额外配置即可被索引。只要扫描器未被列入黑名单,就不会出现问题。
关于该主题的更新。我们已在 ziyuan.baidu.com 上创建了账号,目前一切正常。爬虫能够正确抓取页面内容。此外,我们在服务器上实现了日志记录。百度每天对主题页面发起数十次请求,服务器均返回 200 状态码。
还有一个有趣的情况:我们并非个例。我检查了您客户对应页面的百度指数,发现至少有 4 个客户存在类似问题:
如果您有任何建议,请不吝告知。
也许百度更倾向于托管在中国的网站?百度当然是一个区域性搜索引擎,它也在寻找其他资源,但其主要任务是提供高质量的本地搜索。所以很难说。你可能需要在这方面做一些研究,看看地区如何影响这一情况。也许百度有一些其他特殊要求?
如果百度能够抓取到页面,而且正如你所说一切正常,那么内部的排名机制可能会发挥作用。这些机制可能并不依赖于软件。
绕过速度也取决于许多因素。例如,信息的相关性、更新频率、外部网站反向链接的发布速度及其频率等。
您为什么不直接联系百度呢?也许是因为您的网站内容(以及注册所需的电话号码)全是中文。如果是这样,那么出现您遇到的结果也就不足为奇了。
这只是基于您未提供网站链接的推测,但我们确实知道百度在排名时会优先考虑以下因素(但不限于此):
- 简体中文内容优于其他语言
- 托管在中国境内的网站优于托管在中国境外的网站
- 使用中文顶级域名(即 .cn 域名)的网站
因此,查看那些使用英语、托管在中国境外且没有中文顶级域名的 Discourse 客户网站,对您并没有任何帮助。
@Stranik @Remah
Thank you for your replies.
The URL of the website is not a secret – https://forum.cuba-platform.cn/.
It is on .cn TLD, the server is in Hong Kong and only Chinese language is used.
我想你的问题现在已经解决了,因为我可以搜索到你的主题并找到它们。它们只是比我预期的在搜索结果中排名稍靠后:我搜索的那些主题即使使用主题标题的精确文本,也出现在搜索结果的第 2 页。
因此,最有可能的情况是你的网站在百度上的信誉度还不够。或者百度是否有其他要求是你尚未满足的?
你在哪里输入了查询,使得我们的论坛被展示?我是这样检查的:在百度搜索中输入查询 site:forum.cuba-platform.cn。现在我只看到 5 个链接,而且它们都不是指向主题的链接。
同时,我们遵循了百度的建议,并实现了一个工具,使用 cURL 将新 URL 推送给百度。稍后我们将反馈结果。
你说得对,主题确实没有被收录。百度会收录主题列表视图中的主题标题,但不会收录主题详情页。我不明白百度为什么会收录主题列表却不收录主题?这意味着爬虫正在访问你的网站,但没有抓取主题内容。所以,我建议你先检查网站配置。
我们有同样的问题。
