Suchmaschinen dürfen keine nicht-kanonischen Seiten mehr indexieren

rrit · 4. März 2022 um 17:02

Einige weitere Informationen zu noindex aus den Google-Dokumenten:

Siehe Crawl Budget Management For Large Sites | Google Search Central | Documentation | Google for Developers

Doppelte Inhalte konsolidieren. Entfernen Sie doppelte Inhalte, um das Crawling auf eindeutige Inhalte statt auf eindeutige URLs zu konzentrieren.

Das Crawling von URLs blockieren, die Sie nicht indexieren möchten. Einige Seiten sind für Nutzer möglicherweise wichtig, aber Sie möchten nicht, dass sie in den Suchergebnissen erscheinen. Beispiele hierfür sind Seiten mit unendlichem Scrollen, die Informationen auf verlinkten Seiten duplizieren, oder unterschiedlich sortierte Versionen derselben Seite. Wenn Sie diese nicht wie im ersten Punkt beschrieben konsolidieren können, blockieren Sie diese unwichtigen (für die Suche) Seiten mit robots.txt oder dem URL-Parameter-Tool (für doppelte Inhalte, die über URL-Parameter erreicht werden).

Verwenden Sie kein noindex, da Google die Seite trotzdem anfordert, sie aber dann fallen lässt, wenn es das noindex-Tag sieht, was Crawling-Zeit verschwendet. Verwenden Sie kein robots.txt, um das Crawling-Budget vorübergehend für andere Seiten zuzuweisen; verwenden Sie robots.txt, um Seiten oder Ressourcen zu blockieren, die Google überhaupt nicht crawlen soll. Google wird dieses neu verfügbare Crawling-Budget nicht auf andere Seiten verschieben, es sei denn, Google erreicht bereits das Serverlimit Ihrer Website.

Siehe How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central | Documentation | Google for Developers

j127 · 8. März 2022 um 19:06

Dieser Befehl scheint nicht zu funktionieren. Ich habe heute eine kleinere Discourse-Site aktualisiert, um ihn zu testen, den Befehl ausgeführt und sehe immer noch die noindex-Header.

Bearbeiten: Ich bin mir nicht sicher, wie diese Einstellung funktioniert, aber ich sehe sie nicht in den SiteSettings, zumindest nicht im Frontend (als Administrator) in der Browserkonsole:

var d = Discourse.SiteSettings;
document.body.innerHTML = `\u003cpre\u003e${JSON.stringify(d, null, 4)}\u003c/pre\u003e`;

Es sieht so aus, als ob diese Einstellung für robots.txt gilt und nicht für noindex. Wäre diese nicht auf den meisten Discourse-Sites bereits true?

Falco · 8. März 2022 um 19:27

Oh Entschuldigung, das Richtige ist SiteSetting.allow_indexing_non_canonical_urls. Habe es im OP korrigiert.

sam · 15. März 2022 um 22:33

Wir analysierten weiterhin Probleme nach dieser Änderung und beschlossen, sie gemäß Folgendem zurückzurollen:

github.com/discourse/discourse

FEATURE: enable canonical url indexing

main ← enable_indexing_canonical

opened 10:30PM - 15 Mar 22 UTC

SamSaffron

+1 -1

We rolled out a change to disable canonical indexing. The goal behind it was to… limit crawl budget by Google being spent scanning non canonical topic links. Since this change was applied we rolled out 2 fixes that made the change no longer needed. 1. Topic RSS feeds are no longer followed, links in the RSS feeds are not followed. 2. Post RSS feeds now contain canonical links. Combined these two changes mean crawlers no longer discover a large amount on non-canonical links on Discourse sites.

Ziel dahinter war es, das Crawl-Budget zu begrenzen, das Google für das Scannen von nicht-kanonischen Themenlinks aufwendet.

Seitdem diese Änderung angewendet wurde, haben wir 2 Korrekturen vorgenommen, die die Änderung überflüssig machten.

Themen-RSS-Feeds werden nicht mehr verfolgt, Links in den RSS-Feeds werden nicht verfolgt. Z.B.: https://meta.discourse.org/t/search-engines-now-blocked-from-indexing-non-canonical-pages/218985.rss
Beitrags-RSS-Feeds enthalten jetzt kanonische Links. Z.B.: https://meta.discourse.org/posts.rss

Zusammengenommen bedeuten diese beiden Änderungen, dass Crawler keine große Anzahl von nicht-kanonischen Links auf Discourse-Websites mehr entdecken.

Dies gibt Budget für die Suche frei und macht die Website-Einstellung nicht mehr erforderlich. Website-Betreiber können weiterhin damit experimentieren, sie ist jedoch standardmäßig deaktiviert.

Thema		Antworten	Aufrufe
Removing the /2, /3, /4, etc links for each reply within a topic URL Development seo	33	4457	13. Oktober 2024
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5788	1. Juni 2024
Adding Canonical Redirects for SEO Optimization Support	23	7510	1. Oktober 2015
Sitelinks in Google disappearing Community Building	26	1609	27. Januar 2023
Google Search Indexing and Discourse Data & reporting	9	3877	9. Juni 2020

Suchmaschinen dürfen keine nicht-kanonischen Seiten mehr indexieren

Verwandte Themen