Ruft Google diese Seiten tatsächlich ab, oder tauchen die URLs nur in der Google Search Console als „indexiert, aber durch robots.txt blockiert" auf?
Ich sehe keine noindex-Header in RSS-Feeds, aber wenn eine URL durch robots.txt blockiert ist und einen robots-Header hat, könnte der Crawler diesen Header möglicherweise nie sehen.
[Ich habe die Ausgabe von curl -I entfernt, da dabei kein GET-Request verwendet wurde, weshalb der robots-Header fehlte.]
Edit: Ich habe die RSS-Feeds gerade mit einer GET-Anfrage geprüft, weil ich dachte, der x-robots-noindex-Header wäre in den RSS-Feeds enthalten. Er ist tatsächlich vorhanden, aber nur bei einer GET-Anfrage.
Jetzt fällt mir ein, was ich auf meinem Hauptforum gemacht habe. Die Google Search Console warnte davor, dass RSS-URLs indexiert, aber blockiert seien. Deshalb habe ich die Feeds in der robots.txt freigegeben, da dies verhindert, dass Googlebot die URLs abruft und den noindex-Header sieht. Ich bin mir ziemlich sicher, dass dies die Warnungen beheben wird, aber ich weiß nicht, ob es Googlebot davon abhält, diese URLs zu crawlen.
# Disallow: /t/*/*.rss
# Disallow: /c/*.rss
Ich würde mich ein wenig Sorgen machen, wenn man Crawlern mitteilt, dass RSS-Feeds vorhanden sind (mittels link, siehe unten), ihnen aber 404-Fehler zurückgibt, wenn die Bots versuchen, diese URLs abzurufen. Das könnte eine Maschine dazu veranlassen, anzunehmen, es gäbe ein technisches Problem mit der Website, was deren Qualitätsbewertung senken könnte (unabhängig davon, wie Suchmaschinen die Qualität bestimmen oder ob eine Seite für Nutzer möglicherweise defekt ist).
$ curl -s https://meta.discourse.org/latest | grep -i rss
<link rel="alternate" type="application/rss+xml" title="Latest posts" href="https://meta.discourse.org/posts.rss" />
<link rel="alternate" type="application/rss+xml" title="Latest topics" href="https://meta.discourse.org/latest.rss" />
...