Um Missverständnisse auszuschließen: Dies hat nichts mit der Tatsache zu tun, dass es sich um ein Diskussionsforum handelt. Es geht um die … interessante … Art und Weise, wie Google mit robots.txt umgeht. Siehe Robots.txt Introduction and Guide | Google Search Central | Documentation | Google for Developers
Eine durch robots.txt gesperrte Seite kann dennoch indiziert werden, wenn sie von anderen Websites verlinkt wird
Obwohl Google den Inhalt, der durch robots.txt blockiert wird, nicht crawlt oder indiziert, können wir eine gesperrte URL dennoch finden und indizieren, wenn sie von anderen Stellen im Web verlinkt wird. Folglich können die URL-Adresse und potenziell andere öffentlich verfügbare Informationen, wie z. B. Ankertexte in Links zur Seite, weiterhin in den Google-Suchergebnissen erscheinen. Um sicherzustellen, dass Ihre URL nicht in den Google-Suchergebnissen angezeigt wird, sollten Sie die Dateien auf Ihrem Server passwortgeschützt machen oder das Meta-Tag noindex oder den Response-Header verwenden (oder die Seite vollständig entfernen).
Wir haben Seiten, die wir nicht indiziert haben möchten, seit langem in die standardmäßige robots.txt-Datei jedes Discourse-Standsorts aufgenommen. Dies funktionierte bisher einwandfrei. Zu einem unbekannten Zeitpunkt in der Vergangenheit reichte dies jedoch nicht mehr aus; Google entschied sich, Seiten zu indizieren, die von anderen Orten aus verlinkt wurden, selbst wenn sie über robots.txt gesperrt waren.
Deshalb haben wir Anfang dieses Jahres mit dem Testen von noindex-Headern für bestimmte Seiten begonnen. Das hätte hervorragend funktioniert, gäbe es nicht einen Konflikt zwischen robots.txt und dem Header. Siehe Block Search Indexing with noindex | Google Search Central | Documentation | Google for Developers
Wichtig! Damit die Direktive noindex wirksam ist, darf die Seite nicht durch eine robots.txt-Datei blockiert sein. Ist die Seite durch robots.txt blockiert, wird der Crawler die Direktive noindex niemals sehen, und die Seite kann dennoch in den Suchergebnissen erscheinen, beispielsweise wenn andere Seiten auf sie verlinken.
Das führt uns zu heute. Wir testen das Entfernen bestimmter Seiten aus der robots.txt. Wir müssen vorsichtig sein, da wir all diese Änderungen basierend auf der Google-Dokumentation vornehmen. Wir wissen also, dass wir mit Googlebot kompatibel sind, müssen aber auch andere wichtige Crawler überprüfen, um sicherzustellen, dass wir dort keine Probleme verursachen.