更新
我找到了正确的站点地图端点,它对 Googlebot 的行为正常:
https://forum.pragmaticentrepreneurs.com/sitemap.xml
它是一个有效的 站点地图索引,它引用了:
https://forum.pragmaticentrepreneurs.com/sitemap_recent.xmlhttps://forum.pragmaticentrepreneurs.com/sitemap_1.xml
我测试的内容
- Googlebot 访问:使用 Googlebot 用户代理访问
sitemap.xml、sitemap_recent.xml和sitemap_1.xml时,均返回 HTTP/2 200,并且主体是真实的 XML(而不是 HTML 挑战页面)。 - 标头/内容类型:
sitemap.xml:Content-Type: application/xml; charset=utf-8sitemap_recent.xml+sitemap_1.xml:Content-Type: text/xml; charset=utf-8- 响应包括
x-discourse-route: sitemap/*和x-discourse-crawler-view: true(由 Discourse 在爬虫模式下提供)。
- IPv4 + IPv6:访问
sitemap.xml时均返回 200。 - 稳定性:我连续 20 次使用 Googlebot UA 获取每个站点地图——没有出现 403/429/5xx 错误。
sitemap.xml的典型响应时间约为 \~0.17–0.28 秒,sitemap_recent.xml约为 \~0.19–0.60 秒,而sitemap_1.xml大多在 \~0.45–0.99 秒(有一个较慢的响应约为 \~2.9 秒,仍为 200)。
- robots.txt:包含
Sitemap: https://forum.pragmaticentrepreneurs.com/sitemap.xml并且没有阻止/sitemap*.xml。
Search Console 状态
在 Google Search Console 中,站点地图索引处理显示为成功,但目前在“已读取的站点地图”下仅列出/识别了 https://forum.pragmaticentrepreneurs.com/sitemap_recent.xml。
sitemap_1.xml 仍然没有在那里列出。
现状
从服务器端来看一切正常,所以这感觉像是 Search Console 端的延迟或部分处理:Google 正在读取索引和至少一个子站点地图,但尚未在用户界面中显示第二个。
