Discourse wird nun mit einem X-Robots-Tag: noindex-Header antworten, wenn die angeforderte Seite nicht die kanonische Seite für eine Ressource ist.
Während Discourse ein automatisches Scroll-Design sowohl für Themenlisten als auch für Themen verwendet, ist dies nicht das, was wir Suchmaschinen-Crawlern wie GoogleBot zeigen. Suchmaschinen sehen paginierte Themen mit jeweils 20 Beiträgen. Da Benutzer jedoch auf bestimmte Beiträge in ihren eigenen Beiträgen verlinken und dies mit dem URL-Format /t/title/topic_id/post_id tun werden, werden diese von den Crawlern erfasst und duplizierte Inhalte in Ihren Website-Suchergebnissen hinzufügen und das wertvolle und begrenzte Crawl-Budget Ihres Domains verschwenden.
Um dieses Problem zu lösen, schlug unsere Community von Benutzern vor, den X-Robots-Tag: noindex zu URLs wie post-spezifischen URLs hinzuzufügen, was wir auf alle nicht-kanonischen URLs in Discourse ausdehnen konnten. Dies wurde vor 3 Monaten als versteckte Website-Einstellung veröffentlicht und standardmäßig deaktiviert, während der wir experimentierten, diesen Header sowohl auf Community-Websites als auch auf meta.discourse.org zu aktivieren.
Da die Ergebnisse dieser Periode bisher gut aussehen, haben wir diese Einstellung gerade standardmäßig aktiviert.
Wenn Sie aus irgendeinem Grund dieses Verhalten auf Ihrer Instanz nicht wünschen, können Sie die Indizierung von nicht-kanonischen Seiten immer noch aktivieren, indem Sie auf Ihrem Server docker exec -i app rails runner \"SiteSetting.allow_indexing_non_canonical_urls = true\" ausführen.
Erwarten Sie keine drastischen Änderungen beim Crawling und den Suchergebnissen über Nacht, aber in den nächsten Monaten sollten Sie eine Abnahme der Crawls und Suchergebnisse auf post-spezifischen Seiten feststellen, was zu mehr Crawl-Zeit für neue Themen Ihrer Website und für Inhalte führt, die aufgrund von Crawl-Budget-Beschränkungen auf Ihrer Domain noch nicht indiziert wurden.
TL;DR: Blockieren Sie keine nicht-kanonischen Seiten – verweisen Sie sie einfach mit \u003clink rel=\"canonical\" … \u003e auf eine korrekte URL – dafür ist sie da.
Dieses Feature könnte dem SEO-Linkaufbau auf lange Sicht schaden:
Alle Deep-Links zu Antworten innerhalb von Themen befinden sich jetzt auf noindex-Seiten! Mag Google das?
Eigentlich sollte ein canonical-Tag, der immer auf die Themen-URL verweist – auch für Seiten, die auf eine Antwort verlinken – perfekt funktionieren – ohne X-Robots-Tag: noindex hinzuzufügen:
Beim ersten Crawling einer verlinkten Antwortseite erkennt Google, dass die Seiten-URL (Antwort innerhalb des Themas) nicht zur kanonischen URL passt, und beschließt dann, nur die kanonische URL (Thema) zu crawlen.
Können wir \u003ca rel=\"nofollow\" … \u003e zu allen Links hinzufügen, die dieses Topic-Answer-Deep-Linking durchführen? Bearbeitung: nein, siehe Search engines now blocked from indexing non-canonical pages - #9 by j127
Dadurch könnten wir noch mehr von diesem wertvollen und begrenzten Crawl-Budget von Suchmaschinen einsparen:
Die Suchmaschine würde den Link weder zuerst extrahieren noch die URL aufrufen. Das Aufrufen der URL führt zu einer Antwort mit einem X-Robots-Tag: noindex HTTP-Header, wodurch die Antwort durch Hinzufügen der URL zur internen ‘noindex’-Liste der Suchmaschinen ‘gelöscht’ wird.
Weitere Einsparungen beim Crawl-Budget durch Hinzufügen von nofollow zu RSS-Feed-URLs:
Ich finde, dass die Funktion nicht standardmäßig aktiviert sein sollte. Sie ist aus verkehrstechnischer Sicht gefährlich, selbst wenn sie nur für kurze Zeit eingeschaltet ist, sodass jeder, der jetzt ein Update durchführt, eine unerwünschte Überraschung erleben könnte.
Der canonical-Tag ist der Weg, den Google empfiehlt, um dieses Problem zu lösen, und er scheint bereits zu funktionieren. Seltsame Dinge mit Canonical-Tags können zu seltsamen Problemen mit Google führen, und ein noindex-Fehler könnte schwer zu beheben sein.
Ich stimme dem ersten Teil Ihres Beitrags zu, aber ich glaube nicht, dass internes nofollow ideal ist. Interne Links helfen Suchmaschinen zu erkennen, welche Seiten auf der Website wichtig sind. Google wird nicht jedem Link folgen, den es sieht, weil es weiß, dass es ihn schon einmal gesehen hat. Wenn sie eine URL wie example.com/t/1234/5 sehen, sie aber bereits gecrawlt haben und wissen, dass die kanonische URL example.com/t/1234 ist, werden sie wahrscheinlich nicht ihre Computerressourcen verschwenden, indem sie die nicht-kanonische Version mehrmals besuchen.
‘noindex’ für URLs entfernen, auf die von externen Websites verlinkt wird
Entschuldigung, mit “Antworten” meine ich “Posts” in einem Thema:
Alle Deep-Links von externen Domains zu Posts (z. B. forum.example.com/t/example-topic/5/11) haben jetzt einen http-Header X-Robots-Tag: noindex! Ich schlage vor, diesen http-Header wieder zu entfernen.
Ich schlage vor, für <link rel="canonical" … > niemals eine URL mit einem Post-Anker (die letzte Zahl in …/t/example-topic/1234/5) zu verwenden. Kanonische URLs sollten immer auf die Topic-URL selbst verweisen (…/t/example-topic/1234). Ich denke, das ist bereits so implementiert.
Links für Suchmaschinen umschreiben, wenn die Ziel-URL durch <link rel="canonical" … > “weitergeleitet” wird
Sehr guter Punkt, besser kein rel="nofollow" hier hinzufügen.
Discourse hat eine spezielle Ansicht für Crawler. Neuer Vorschlag nur für die Crawler-Ansicht:
Konvertiere alle internen Links, die auf eine Post-URL (example.com/t/1234/5) zeigen, so, dass sie stattdessen auf die entsprechende Topic-URL (example.com/t/1234) zeigen.
Absicht: Suchmaschinen keine zusätzlichen URLs ankündigen, wenn diese zusätzlichen URLs sowieso durch <link rel="canonical" … > “weitergeleitet” werden.
Fundorte solcher Links zu Posts:
manuell hinzugefügte Links in Benutzerinhalten
automatisch generierte Links in
Zitaten
erster Post eines Themas: “eingehende verfolgte Links” von anderen Themen
erster Post eines Themas: “ausgewählte Antwort”
erster Post eines Themas - Themenübersicht geöffnet: “Themenlinks”/“gelikte Links”
Exkurs: Wo findet Google all diese URLs?
“Eingehende verfolgte Links” für Suchmaschinen
Genau aus diesem Grund sollten die automatisch generierten “eingehenden verfolgten Links von anderen Themen” im ersten Post eines Themas auch für Suchmaschinen sichtbar sein. Derzeit fehlen diese “eingehenden verfolgten Links” in der Crawler-Ansicht. Bearbeitung: Sie sind bereits in der Crawler-Ansicht vorhanden.
Aber sie zeigen auf die Post-URL anstelle der Topic-URL (siehe HTML-Quelle)
<div class="crawler-linkback-list" itemscope="" itemtype="http://schema.org/ItemList">
<div itemprop="itemListElement" itemscope="" itemtype="http://schema.org/ListItem">
<a href="https://meta.discourse.org/t/removing-the-2-3-4-etc-links-for-each-reply-within-a-topic-url/209648/26" itemscope="" itemtype="http://schema.org/DiscussionForumPosting" itemprop="item">
<meta itemprop="url" content="https://meta.discourse.org/t/removing-the-2-3-4-etc-links-for-each-reply-within-a-topic-url/209648/26">
<span itemprop="name">Removing the /2, /3, /4, etc links for each reply within a topic URL</span>
</a>
<meta itemprop="position" content="2">
</div>
</div>
Dies ist ein entscheidender Punkt. Es ist eine Sache, alle Seiten indiziert zu bekommen, und eine andere, ein relevantes Ranking für sie zu erzielen. Meiner Erfahrung nach (mit großen Verlagsseiten) ist intelligentes internes Verlinken der Schlüssel, um dies zu erreichen.
Für alle, die ihre Website seit dem Datum des ursprünglichen Beitrags aktualisieren.
Wir haben Daten, die zeigen, dass der neue Header die Crawl-Zeit auf diesen Seiten reduziert und die kanonische URL immer gesetzt war.
Aber diese Seiten sind ohnehin nicht zum Crawlen gedacht. Die Metadaten mit der URL werden auf Topic-Ebene gesetzt, wir möchten nicht, dass Google die Beitragsebene crawlt, da dies doppelte Inhalte sind.
Super, hier muss also nichts geändert werden.
Dies zur Laufzeit zu tun, könnte zu teuer für die CPU sein, und das Speichern von zwei Versionen jedes Beitrags wäre zu teuer für den Speicherplatz.
Unsere Standardeinstellungen sind immer das, was wir empfehlen. Wir pflegen und kündigen jedoch Site-Einstellungen an, damit die Leute sich auch anders entscheiden können, wenn sie der Meinung sind, dass eine Standardeinstellung für ihre Website nicht ideal ist.
Könnte es also Probleme mit sitemap_recent.xml geben, die solche Links enthält? https://meta.discourse.org/t/category-moderator-improvements/158628?page=2
Bedeutet dies für SEO-Neulinge wie mich, dass es sich um eine SEO-Verbesserung handelt, die potenziell zu einer leichten Steigerung/einem Vorteil in den Google-Suchergebnissen führen könnte?
Wir haben die Änderung über mehrere Monate in einer Tech-News-Community getestet und einen großen Anstieg der anonymen Seitenaufrufe von Spitze zu Spitze festgestellt. Unser Endziel ist es immer, alle Discourse-Communities in jeder Hinsicht gesünder zu machen.
… schlage ich die folgende Implementierung vor, um den besten Kompromiss zu erzielen:
Fügen Sie keinen http-Header X-Robots-Tag: noindex hinzu.
– unter Berücksichtigung von [E] –
Behalten Sie canonical-Tags immer auf die Themen-URL gerichtet.
– Verringerung der Crawls [A] und Berücksichtigung von [C] –
Nur für die Crawler-Ansicht: Konvertieren Sie automatisch generierte Links so, dass sie immer auf die Themen-URL und nicht auf die Beitrags-URL verlinken – für alle Links im ersten Beitrag eines Themas „eingehende nachverfolgte Links von anderen Themen“ und „Themenkarte geöffnet: Themenlink/gelikte Links“.
– Verringerung der Crawls [A] und Berücksichtigung von [D], aber bewusste Missachtung von [B] –
Zu [B]: CPU-Kosten fallen nur für Crawler-Besuche an und bestehen darin, einen Regex-Ersatz durchzuführen, um die letzte Zahl von internen URLs zu entfernen, die auf zwei Zahlen enden, z. B. …/t/example-topic/1234/5 → …/t/example-topic/1234 im begrenzten Rahmen des ersten Beitrags eines Themas „eingehende nachverfolgte Links von anderen Themen“ und „Themenkarte geöffnet“ nur.
Für alle Ansichten: Fügen Sie interne nofollow-Tags zu Zitaten und manuell hinzugefügten Links in Benutzerinhalten hinzu.
– Verringerung der Crawls [A] und Berücksichtigung von [B], aber leichte Missachtung von [D] –
Zu [D]: Wichtige Links werden bereits automatisch in das erste Thema im Abschnitt „Themenkarte geöffnet: Themenlink/gelikte Links“ dupliziert [siehe 3.] und die meisten Zitate bleiben ohnehin innerhalb des Themas selbst.