Обновление
Я нашел правильный endpoint карты сайта, и он работает нормально для Googlebot:
https://forum.pragmaticentrepreneurs.com/sitemap.xml
Это валидный индекс карты сайта, который ссылается на:
https://forum.pragmaticentrepreneurs.com/sitemap_recent.xmlhttps://forum.pragmaticentrepreneurs.com/sitemap_1.xml
Что я проверил
- Доступ Googlebot:
sitemap.xml,sitemap_recent.xmlиsitemap_1.xmlвозвращают HTTP/2 200 с user-agent Googlebot, а тело ответа — это реальный XML (а не HTML-страница с вызовом проверки). - Заголовки / тип содержимого:
sitemap.xml:Content-Type: application/xml; charset=utf-8sitemap_recent.xml+sitemap_1.xml:Content-Type: text/xml; charset=utf-8- В ответах присутствуют заголовки
x-discourse-route: sitemap/*иx-discourse-crawler-view: true(отправлены Discourse в режиме краулинга).
- IPv4 + IPv6: оба протокола возвращают 200 для
sitemap.xml. - Стабильность: я запрашивал каждую карту сайта 20 раз подряд с user-agent Googlebot — ошибок 403/429/5xx не было.
- Типичное время ответа составляло ~0,17–0,28 с для
sitemap.xml, ~0,19–0,60 с дляsitemap_recent.xmlи в основном ~0,45–0,99 с дляsitemap_1.xml(один медленный ответ ~2,9 с, но статус всё равно 200).
- Типичное время ответа составляло ~0,17–0,28 с для
- robots.txt: содержит запись
Sitemap: https://forum.pragmaticentrepreneurs.com/sitemap.xmlи не блокирует/sitemap*.xml.
Статус в Search Console
В Google Search Console обработка индекса карты сайта отображается как успешная, но в разделе «Прочитанные карты сайта» в настоящее время указан только
https://forum.pragmaticentrepreneurs.com/sitemap_recent.xml.
sitemap_1.xml там всё ещё не отображается.
Текущая ситуация
С точки зрения сервера всё выглядит нормально, поэтому это похоже на задержку или частичную обработку на стороне Search Console: Google читает индекс и как минимум одну дочернюю карту сайта, но пока не отобразил вторую в интерфейсе.
