Фактически ли Google извлекает эти страницы, или же URL просто отображаются в Google Search Console как «проиндексированы, но заблокированы robots.txt»?
Я не вижу заголовков noindex в RSS-каналах, но если URL заблокирован robots.txt и имеет заголовок robots, краулер может никогда не увидеть заголовок robots.
[Я удалил вывод curl -I, потому что он не использовал GET, поэтому заголовок robots отсутствовал.]
Редактирование: Я только что проверил RSS-каналы с помощью GET-запроса, так как думал, что заголовок x-robots-noindex присутствует в RSS-каналах, и он там есть, но только при GET-запросе.
Теперь я вспоминаю, что делал на своём основном форуме. Google Search Console предупреждал об индексации URL RSS-каналов, хотя они были заблокированы, поэтому я разблокировал каналы в robots.txt, так как это предотвращает получение Googlebot URL и просмотр заголовка noindex. Я почти уверен, что это устранит предупреждения, но не знаю, остановит ли это Googlebot от обхода этих URL.
# Disallow: /t/*/*.rss
# Disallow: /c/*.rss
Меня немного беспокоит, что краулерам сообщается о наличии RSS-каналов (с помощью link, см. ниже), а затем возвращается 404, когда боты пытаются получить эти URL. Это может заставить машину подумать, что на сайте есть техническая проблема, снижая его оценочное качество (независимо от того, как поисковые системы определяют качество или определяют, может ли сайт быть неработоспособным для пользователей).
$ curl -s https://meta.discourse.org/latest | grep -i rss
<link rel="alternate" type="application/rss+xml" title="Latest posts" href="https://meta.discourse.org/posts.rss" />
<link rel="alternate" type="application/rss+xml" title="Latest topics" href="https://meta.discourse.org/latest.rss" />
...