Sende kanonischen Link-Header anstelle des Noindex-Headers

rrit · 6. März 2022 um 17:07

Senden Sie stattdessen einen canonical-Link-Header anstelle eines noindex-Headers.

Das Senden eines canonical-Headers hat wahrscheinlich den gleichen Vorteil für das Crawling-Budget wie das Senden eines noindex-Headers – ohne die SEO-Auswirkungen des Ausschlusses von URLs, die möglicherweise Backlinks über noindex haben.

Siehe auch How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central | Documentation | Google for Developers

Wenn Sie Ihren Server konfigurieren können, können Sie einen rel="canonical" HTTP-Header (anstelle eines HTML-Tags) verwenden, um die kanonische URL für ein von Search unterstütztes Dokument anzugeben, einschließlich Nicht-HTML-Dokumenten wie PDF-Dateien.

Wir können unseren Server konfigurieren.
Betont use a rel="canonical" HTTP header rather than an HTML tag eine Präferenz für die HTTP-Header-Lösung?

Aus #11553

Googlebot behandelt No-Index-Header sehr elegant. Es wird empfohlen, so viele Routen wie möglich offen zu lassen und Header für hochpräzise Regeln bezüglich Indizes zu verwenden.

Vielleicht behandelt Google canonical-Link-Header genauso elegant wie no-index-Header.

sam · 8. März 2022 um 03:36

Ich habe damit zu kämpfen, da die Empfehlung von Google so aussieht, als ob sie sich nicht besonders darum kümmert.

Die Empfehlungen für den rel="canonical" HTTP-Header sind die gleichen wie für das rel="canonical" link-Tag.

Ich schätze, es gibt nicht viel zu verlieren, und es ist möglich, dass eine Mischung aus No-Index und Rel-Canonical das richtige Rezept für Google ist. Aber ich bin mir einfach nicht sicher.

@Falco ?

Falco · 8. März 2022 um 03:48

Dies macht die kürzlich eingeführte Website-Einstellung rückgängig, was im Grunde zu einer No-op wird (wir senden das, was wir als Head-Tag in einem Header senden, ohne semantische Änderung).

Ich möchte diese Änderung so nicht.

rrit · 8. März 2022 um 08:40

[quote=“sam, post:2, topic:220213”]
Ich schätze, es gibt nicht viel zu verlieren, und es ist möglich, dass eine Mischung aus noindex plus rel canonical das richtige Google-Rezept ist. Aber ich bin mir einfach nicht sicher.
[/quote]Für die neue Standardeinstellung SiteSetting.allow_indexing_non_canonical_urls = false ist dies die derzeit implementierte Vorgehensweise – und sie bleibt so:

Header noindex
HTML Link-Tag canonical (kann ignoriert werden)

Ohne Patch und SiteSetting.allow_indexing_non_canonical_urls = true

– kein Header –
HTML Link-Tag canonical

Mit Patch und SiteSetting.allow_indexing_non_canonical_urls = true

Header: Link: <https://forum.example.com/t/test-example/1234>; rel="canonical"
HTML Link-Tag canonical (kann ignoriert werden – aber sowieso derselbe wie im Header)

Die gesamte Idee dahinter:
Setze canonical als HTTP-Header, um denselben Vorteil wie beim noindex HTTP-Header zu erzielen – nämlich schnellere Crawling-Zeiten.
Dadurch könnte noindex mit seinen unsicheren Implikationen obsolet werden.

Ein weiterer Punkt zu noindex vs. canonical:

noindex ist mehr als ein sehr starkes Signal, die Seite nicht in den Suchindex aufzunehmen.
Aber mit noindex wird der Seiteninhalt immer noch vom Google Bot verarbeitet, um Links zu extrahieren (es gibt die zusätzliche Option nofollow, um dies zu deaktivieren).
canonical ist ein starkes Signal, dass der zu crawelnde Inhalt unter einer anderen kanonischen URL zu finden ist.
Wenn der Google Bot beschließt, dieses Signal für eine Seite zu akzeptieren, besteht eine hohe Wahrscheinlichkeit, dass er den Seiteninhalt überhaupt nicht verarbeitet – und nur die kanonische URL verarbeitet.

Dies ist ein Gedankenexperiment. Es ist nirgendwo implementiert – und ich empfehle niemals, es zu implementieren:

Header noindex
HTML Meta-Tag noindex (anstelle von: HTML Link-Tag canonical)

– ODER –

– kein Header –
HTML Meta-Tag noindex

Warum oder warum nicht so implementieren?

rrit · 8. März 2022 um 09:26

Diese Änderung ist kein ‘Noop’:
Google kann Header und HTML-Inhalte in verschiedenen Phasen seiner Verarbeitungs-Warteschlangen behandeln. Durch das Senden von Headern können wir weitere Verarbeitungs-Warteschlangen (z. B. Render Queue) überspringen und dadurch Crawl-Budget für wichtigere Seiten freigeben.

Siehe In-Depth Guide to How Google Search Works | Google Search Central | Documentation | Google for Developers

(Die einzige Grafik der Verarbeitungs-Warteschlange, die ich gefunden habe: Understand JavaScript SEO Basics | Google Search Central | Documentation | Google for Developers)

rrit · 20. März 2022 um 14:10

Die noindex-Änderung wurde kürzlich zurückgerollt:

Search engines now blocked from indexing non-canonical pages - #30 by sam
FEATURE: enable canonical url indexing by SamSaffron · Pull Request #16196 · discourse/discourse · GitHub

Können Sie sich diesen PR noch einmal ansehen:

sam · 21. März 2022 um 00:14

Nicht stark dagegen, aber es fühlt sich so geringfügig an. Google lädt heutzutage immer Inhalte herunter. Ich bezweifle, dass das Speichern einer HTML-Analyse wirklich einen wesentlichen Unterschied machen wird.

Es gibt viele andere Bereiche, auf die man sich zuerst konzentrieren muss. Die Mikrodaten sind wahrscheinlich der erste Bereich, der etwas Pflege benötigt.

Thema		Antworten	Aufrufe
Search engines now blocked from indexing non-canonical pages Announcements seo	23	4569	15. März 2022
3 Pages Indexed in Google with same canonical tag Feature	1	545	8. November 2020
Homepage doesn't have canonical URL Feature	9	1985	4. Januar 2020
Canonical Meta Data Does Not Change Correctly in Discourse App when not loaded by a webcrawler Feature	5	974	1. August 2020
I want to Update rel=canonical href using Java Script Support	18	4359	2. August 2020

Sende kanonischen Link-Header anstelle des Noindex-Headers

Verwandte Themen