O Google Search Console não consegue ler o sitemap

Olá!

Parece que o Google Search Console não consegue ler um dos sitemaps. O sitemap principal sitemap.xml (https://forum.pragmaticentrepreneurs.com/sitemap.xml) é lido corretamente, mas apenas sitemap_recent.xml é importado.

Se eu tentar adicionar sitemap_1.xml manualmente ao Google Search Console, recebo um erro. Se eu tentar no validador, parece bom.

Você tem alguma ideia de por que o GSE não consegue ler sitemap_1.xml?

Obrigado pela ajuda.

EDIT:
O Bing está lendo ambos os sitemaps corretamente, então parece ser específico do Google.

Além disso, tudo está bem quando tento inspecionar sitemap_1.xml

Parece que você teve o mesmo problema no ano passado: Troubleshooting sitemap indexing issues in Google Search Console.

Eventualmente funcionou?

Acabei de ver que já postei uma pergunta sobre isso :slight_smile: Mas não, não consegui uma solução.

Me avise se posso fornecer mais informações para ajudar.

Não faço ideia também.

O URL está acessível para mim. Tentei várias ferramentas para validar o XML, sem problemas. Lendo Manage your sitemaps using the Sitemaps report - Search Console Help, você deve ver uma página de detalhes abaixo do erro que diz o que está errado (não parece ser o seu caso, no entanto).

No mínimo, eu encorajaria você a ler este artigo. Você pode encontrar uma pista.

De fato, não tenho detalhes sobre o erro. Tentei inspecionar a URL como eles disseram, mas não há erro aqui :frowning:

Me avise se posso fazer algo mais para ajudar.

Atualização

Encontrei o endpoint correto do sitemap e ele está se comportando normalmente para o Googlebot:

  • https://forum.pragmaticentrepreneurs.com/sitemap.xml

É um índice de sitemap válido e ele referencia:

  • https://forum.pragmaticentrepreneurs.com/sitemap_recent.xml
  • https://forum.pragmaticentrepreneurs.com/sitemap_1.xml

O que eu testei

  • Acesso do Googlebot: sitemap.xml, sitemap_recent.xml e sitemap_1.xml retornam HTTP/2 200 com um user-agent do Googlebot, e o corpo é XML real (não uma página de desafio HTML).
  • Cabeçalhos / tipo de conteúdo:
    • sitemap.xml: Content-Type: application/xml; charset=utf-8
    • sitemap_recent.xml + sitemap_1.xml: Content-Type: text/xml; charset=utf-8
    • As respostas incluem x-discourse-route: sitemap/* e x-discourse-crawler-view: true (servido pelo Discourse no modo crawler).
  • IPv4 + IPv6: ambos retornam 200 em sitemap.xml.
  • Estabilidade: Busquei cada sitemap 20 vezes seguidas com um UA do Googlebot — sem 403/429/5xx.
    • Os tempos de resposta típicos foram de ~0.17–0.28s para sitemap.xml, ~0.19–0.60s para sitemap_recent.xml e, na maioria, ~0.45–0.99s para sitemap_1.xml (uma resposta mais lenta em ~2.9s, ainda 200).
  • robots.txt: inclui Sitemap: https://forum.pragmaticentrepreneurs.com/sitemap.xml e não bloqueia /sitemap*.xml.

Status do Search Console

No Google Search Console, o processamento do índice do sitemap mostra como bem-sucedido, mas apenas https://forum.pragmaticentrepreneurs.com/sitemap_recent.xml está atualmente listado/reconhecido em “Sitemaps lidos”.
sitemap_1.xml ainda não está listado lá.

Onde isso nos deixa

Do lado do servidor, tudo parece normal, então isso parece ser um atraso ou processamento parcial do lado do Search Console: o Google está lendo o índice e pelo menos um sitemap filho, mas ainda não exibiu o segundo na interface do usuário.