Entfernen der /2, /3, /4 usw. Links für jede Antwort innerhalb einer Themen-URL

Ich frage mich, ob es eine Möglichkeit gibt, kanonische Links vollständig von einem Discourse-Forum zu entfernen.

Ich beziehe mich auf die Erweiterungen /2, /3, /4 usw., die für jede Topic-URL angezeigt werden, wenn ein Benutzer durch die Seite scrollt. Ich möchte, dass jede Antwort innerhalb eines Topics einfach auf die ursprüngliche URL verweist (Besucher nicht auf die ursprüngliche URL umleitet, sondern diese Pfade vollständig entfernt, sodass sie nicht existieren).

Ursprünglich hielt ich das für ein cooles Feature von Discourse, aber da ich seit einem Jahr ein ähnliches Forum auf meiner Website mit NodeBB betreibe (das die gleiche kanonische Link-Funktion für jede Antwort verwendet), haben wir festgestellt, dass diese Funktionalität katastrophal für das SEO eines öffentlichen Forums sein kann.

Warum? Denn obwohl diese /2, /3, /4 URLs kanonische Links sind, wird Google sie irgendwann crawlen und indexieren. Das bedeutet, dass jede neue Antwort innerhalb eines Topics in den Google-Suchergebnissen erscheinen kann, und da es sich im Grunde um doppelte Versionen der ursprünglichen Topic-URL handelt, erhalten diese zusätzlichen indexierten Seiten selten Besuche, und wenn doch, bleiben Besucher nur wenige Sekunden auf der Website.

Wenn Google viele zusätzliche Seiten indexiert und diese Seiten nicht viel Aktivität erhalten, teilt dies Google mit, dass die Domain als Ganzes viele URLs von geringer Qualität hat und dies die allgemeine Domain-Gesundheit beeinträchtigt (wie in unserem Fall geschehen). Wir haben seit der Einführung unseres öffentlichen Forums etwa 40 % unseres Traffics verloren, und ein wichtiger Faktor dafür waren diese zusätzlichen URLs (über 30.000 URLs von geringer Qualität wurden im Laufe von 12 Monaten zu unserer Sitemap hinzugefügt, nur wegen der Antworten, die in jedem Topic hinterlassen wurden).

Wenn Sie ein privates Forum betreiben, spielt all dies keine Rolle, da ein privates Forum von keinem SEO profitiert, da das gesamte Forum ohnehin vor dem Internet verborgen ist. Aber wenn Sie versuchen, ein öffentliches Forum zu betreiben und Ihr Ziel darin besteht, organischen Suchverkehr zu generieren, können diese zusätzlichen URL-Strings einen enormen nachteiligen Einfluss auf die allgemeine Gesundheit Ihrer Website haben.

Daher frage ich mich, ob es irgendeine denkbare Möglichkeit gibt, die Einstellungen zu ändern oder ein Plugin zu erstellen, das einem Discourse-Forum mitteilt, diese zusätzlichen URLs für jede Antwort innerhalb eines Topics NICHT zu erstellen?

Ich erwäge, unser Forum von NodeBB zu Discourse zu migrieren, aber das macht nur Sinn, wenn es eine Möglichkeit gibt, unser Discourse-Forum dazu zu bringen, diese zusätzlichen URLs NICHT zu erstellen.

3 „Gefällt mir“

Dies ist schon ein paar Mal aufgetaucht: Google indexing same page multiple times: Issue with canonicals

wie konnten Sie feststellen, dass dies ein wesentlicher Faktor war? Viele SEO-Beiträge, die hier veröffentlicht wurden, waren ziemlich spekulativ, daher hilft etwas Beweismaterial!

Ich habe keine Erfahrung mit diesem Plugin und kann es persönlich nicht empfehlen, aber jemand hat versucht, kanonische Links mit einem Plugin zu deaktivieren: Remove Canonical Link Plugin

7 „Gefällt mir“

\u003e Dies wurde bereits ein wenig zuvor angesprochen: Google indexiert dieselbe Seite mehrmals: Problem mit Canonical-Tags \n\nWenn ich dieser Konversation richtig folge, bezieht sich dies auf ein etwas anderes Problem als das, worüber ich oben spreche. Es ist kein Problem, mehrere kanonische URLs für ein Thema zu erstellen, wenn sie in 20er-Gruppen zusammengefasst sind und eindeutige Meta-Beschreibungen haben (Seite=2, Seite=3 usw.). Das Problem ist, wenn für jede einzelne Antwort innerhalb eines Themas eine neue URL erstellt wird (/2, /3, /4 usw.).\n\nFür ein Thema mit 100 Antworten würde ersteres zu 5 URLs pro Thema führen (100 Antworten, gruppiert in Vielfachen von 20). Letzteres würde zu 100 URLs pro Thema führen (eine neue, einzelne URL für jede einzelne Antwort), was ein großes SEO-Problem darstellt.\n\n\u003e Wie konnten Sie feststellen, dass dies ein wesentlicher Faktor war? Viele hier gepostete SEO-Beiträge waren eher spekulativ, daher helfen Beweise sehr!\n\nMit Tools wie Google Search Console, SEMrush und Ahrefs. Alle haben Warnungen und Fehler hervorgehoben, die sich aus der riesigen Anzahl von URLs auf unserer Website ergaben, die durch diese Foren-Antworten erstellt wurden und alle von Google indiziert wurden, ohne nennenswerten neuen Inhalt zu liefern. Die Gesundheitswerte lagen im Bereich von 30 und 40, als unser Forum öffentlich war. Sobald wir unser gesamtes Forum gesperrt und privat gemacht hatten (damit Google es nicht sehen konnte) und die Tests erneut durchführten, stieg unser Gesundheitswert allein durch diese Änderung auf über 80.\n\n\u003e Ich habe keine Erfahrung mit diesem Plugin und kann es persönlich nicht empfehlen, aber jemand hat versucht, kanonische Links mit einem Plugin zu deaktivieren: Remove Canonical Link Plugin\n\nDas habe ich auch gefunden. Leider macht dieses Plugin die Situation sogar noch schlimmer, da es die kanonischen Tags vollständig entfernt, aber die Seiten /2, /3 usw. beibehält, sodass diese zusätzlichen URLs immer noch als doppelte Inhalte von geringer Qualität angesehen werden.

3 „Gefällt mir“

Es ist erwähnenswert, dass es auf unserer Roadmap steht, einen X-Robots-Tag: noindex-Header zur Antwortnutzlast dieser Seiten hinzuzufügen.

10 „Gefällt mir“

Gut zu wissen. Klingt nach einem großen Schritt in die richtige Richtung.

Was es wert ist, wir haben tatsächlich einige Fälle in unserem aktuellen Forum gesehen (als es noch öffentlich war), in denen wir die robots.txt-Datei zu bestimmten Unterordnern unseres Forums hinzugefügt hatten, und Google hat sie trotzdem gecrawlt. Ich glaube, das ist höchst ungewöhnlich… aber wir haben festgestellt, dass es Fälle gibt, in denen Google diese Anweisung nicht befolgt. Die einzige Möglichkeit, 100% sicher zu sein, dass eine Seite nicht indexiert wird, ist, dass die Seite hinter einem Login-Bildschirm verborgen ist oder dass die Seite gar nicht existiert.

Aus der Sicht eines Außenstehenden scheint es einfach zu sein, Discourse anzuweisen, nicht die zusätzlichen Schritte zu unternehmen, um diese zusätzlichen URLs für jede Antwort zu erstellen. Die Software würde auf diese Weise weniger Arbeit leisten und weniger Komplexität erzeugen, oder?

Es wäre schön, eine Funktion in den Admin-Einstellungen zu haben, um diese zusätzlichen URLs einfach ganz auszuschalten.

1 „Gefällt mir“

Ja, auf diese Weise werden wir den Header-Tag verwenden, anstatt diese in die robots.txt-Datei zu legen.

3 „Gefällt mir“

Ich bin mir nicht sicher, ob ich verstehe, was hier passiert.

Weil Discourse das Erstere tut: Es erstellt ?page=X kanonische URL-Meta-Tags für Gruppen von 20 Antworten. Und wie Sie hier sehen können, werden Beitragsnummern nie zu den Sitemap-URLs hinzugefügt, nur ?page=X-URLs.

Daher wollte ich Ihnen sagen, dass es kein Problem gibt.

Aber dann habe ich eine Google-Suche nach einem Thema mit vielen Antworten durchgeführt, und obwohl Seite 2 dieser Suchergebnisse voller ?page=X-Links ist, verlinken einige der Top-Ergebnisse tatsächlich auf diese nummerierten Antworten.

Aber warum passiert das? Diese Seite hat eine korrekte kanonische URL.

rgj@labgate:~$ wget -q -O - "https://meta.discourse.org/t/babble-a-chat-plugin/87297/418"|grep -e "<title" -e canonical
<title>Babble - A Chat Plugin - #418 by HAWK - broken-plugin - Discourse Meta</title>
<link rel="canonical" href="https://meta.discourse.org/t/babble-a-chat-plugin/87297?page=20" />

3 „Gefällt mir“

Ich weiß es nicht.

Meine wilde Vermutung ist, dass diese Links woanders im Internet auftauchen, also werden diese indiziert?

1 „Gefällt mir“

Canonical ist dazu da, das zu verhindern. Zumindest – theoretisch.

4 „Gefällt mir“

Ich hatte eine ausführliche Diskussion darüber mit einer Blog-zentrierten Community hier in Brasilien, die Discourse nutzt, und das hat mich dazu bewogen, diesen neuen Ansatz auszuprobieren, indem ich den noindex-Header für diese spezifischen Beitragsseiten sende. Ich sollte in der Lage sein, das PR nächste Woche zu bereinigen und zusammenzuführen, und wir können damit beginnen, damit zu experimentieren.

7 „Gefällt mir“

Aber warum passiert das? Diese Seite hat eine korrekte kanonische URL.

Genau. Es sollte (theoretisch) nicht passieren, aber es passiert, und wie wir mit unserer Website erlebt haben, schadet es der Integrität einer Domain wirklich, was letztendlich erhebliche negative Auswirkungen auf das Suchranking der gesamten Domain haben kann.

Bezüglich dessen, was @pfaffman gesagt hat,

Meine wilde Vermutung ist, dass diese Links auch anderswo vorkommen und daher die sind, die indiziert werden?

Das wäre auch mein Gedanke gewesen… aber wir haben gesehen, dass Zehntausende dieser einzelnen Antworten auf unserer Website von Google indiziert wurden, obwohl absolut nichts auf sie verlinkte. Es ist ziemlich bizarr und ich kann nicht vorgeben zu verstehen, warum/wie es passiert, aber es unterstreicht die Notwendigkeit, dass ein Forenadministrator einfach die Möglichkeit haben muss, diese /2, /3, /4 usw. URLs für jede Antwort zu deaktivieren, wenn er dies wünscht.

Ich bin neugierig: Ist es schwierig, Discourse diese Funktion zu geben? Aus meiner Sicht als Nicht-Programmierer scheint dies einfach zu sein, da die Software nur angewiesen werden muss, weniger zu tun… aber vielleicht steckt mehr dahinter, was ich nicht verstehe?

2 „Gefällt mir“

Ich bin mir nicht sicher, aber das Hinzufügen von noindex zu diesen könnte schädlich sein. Discourse kümmert sich bereits korrekt darum, indem es kanonische URLs verwendet.

Wenn Sie sie mit noindex versehen, besteht die Gefahr, dass die gesamte Seite mit noindex versehen wird (da es sich alles um dieselbe kanonische URL handelt), was katastrophal wäre. Ich weiß nicht genau, was passieren wird, aber ich wäre extrem vorsichtig, da Google Randfälle oft unvorhersehbar behandelt und sich die Handhabung mit Updates ändern kann. Ich habe seltsame Dinge mit kanonischen Tags gesehen.

Es ist nicht genau bekannt, wie der Ranking-Algorithmus funktioniert, und er ändert sich im Laufe der Zeit. Eine weitere Überlegung ist, dass Rankings das Ergebnis von eingehenden Links sind. Wenn eine externe Website auf eine /number-URL verlinkt und diese URL einen noindex-Header zurückgibt, ist es denkbar, dass Google den eingehenden „Link-Saft“ nicht auf die kanonische URL überträgt, was sich nachteilig auf das Suchranking von Discourse-Websites auswirken könnte.

Ich denke, es wäre viel sicherer, jemanden bei Google Search zu kontaktieren und ihnen mitzuteilen, dass der kanonische Tag für ein weit verbreitetes CMS nicht funktioniert, als sich eine Problemumgehung auszudenken, die möglicherweise nicht auf die gleiche Weise gehandhabt wird, wenn Google weitere Updates vornimmt.

6 „Gefällt mir“

Nein, es unterstreicht die Notwendigkeit, Dinge zu reparieren. Als Softwareentwickler fällt es mir sehr schwer, Funktionalität zu entfernen, weil sie nicht zu 100 % korrekt funktioniert. Mal sehen, ob wir helfen und der Sache auf den Grund gehen können.

Sind Sie sicher? Ich habe noch nie eine Beitragsnummer in einer Sitemap gesehen.

3 „Gefällt mir“

Deshalb wird es unter einer Website-Einstellung stehen.

5 „Gefällt mir“

Vielen Dank für Ihre Nachfrage. „Sitemap“ war wahrscheinlich das falsche Wort. Was ich meinte war, dass diese nummerierten Beiträge von Google gecrawlt und indexiert wurden und als einzelne Seiten in Google Analytics und Search Console erschienen, was zu VIELEN minderwertigen Seiten auf unserer Domain führte.

Wenn diese Nummern einfach nicht zu jeder einzelnen Antwort hinzugefügt worden wären, hätte Google nur die URL des Originalbeitrags sehen können.

2 „Gefällt mir“

Ja, und wenn Google diese rel="canonical" Meta-Tags ehren würde (die sie erfunden haben!), die dort speziell eingefügt wurden, um Google daran zu hindern, dies zu tun, wäre es kein Problem und wir könnten trotzdem auf einen bestimmten Beitrag verlinken.

7 „Gefällt mir“

Klingt gut. Es wäre ideal, wenn es standardmäßig deaktiviert wäre, da es nicht ausgeschlossen werden kann, dass es dazu führt, dass Themenseiten aus Google oder anderen Suchmaschinen verschwinden.

Ich bin mir nicht sicher, ob es bereits erwähnt wurde, aber eine andere Möglichkeit, dies ohne noindex zu beheben, wäre die Verwendung von URL-Fragmenten für die Beiträge, da diese nicht als separate Seiten gezählt werden sollten.

/t/slug/id#13
5 „Gefällt mir“

Danke für den Vorschlag. Ich würde gerne glauben, dass das funktionieren würde … aber da die ursprüngliche “korrekte” Methode nicht einmal funktioniert, bin ich skeptisch, ob irgendetwas das Problem lösen wird, außer die nummerierten Antworten ganz zu eliminieren.

Natürlich sage ich nicht, dass ALLE Discourse-Benutzer sie nicht mehr verwenden sollten. Wenn Google nicht dumm wäre (und/oder wenn wir beabsichtigen würden, dass unser Forum privat und nicht öffentlich ist), wäre ich voll dafür … aber allein die Möglichkeit, die automatische Nummerierung von Antworten zu deaktivieren, wäre eine große Hilfe für diejenigen, die öffentliche Foren betreiben und sich um die allgemeine SEO-Gesundheit ihrer Domain kümmern.

1 „Gefällt mir“

Das würde jedoch die Möglichkeit entfernen, auf bestimmte Beiträge zu verlinken. Es gäbe keine Möglichkeit, in einem Thema mit 1.000 Beiträgen auf Beitrag Nr. 789 zu verlinken, und es wäre für Benutzer ärgerlich, so weit scrollen zu müssen.

Es ist seltsam. Ich habe Google durchsucht, um zu sehen, ob die Post-ID-URLs auf meinen Foren indiziert wurden, und nur die kanonischen URLs werden bei allen von mir geprüften Themen angezeigt.

Ich sehe es jedoch auf einer anderen großen Discourse-Website. Es erscheint auch in diesem Thema. [Google-Suche]

Ich habe einen Diff zwischen den beiden Antworten wie folgt durchgeführt:

curl -s https://meta.discourse.org/t/removing-the-2-3-4-etc-links-for-each-reply-within-a-topic-url/209648 > 1.html
curl -s https://meta.discourse.org/t/removing-the-2-3-4-etc-links-for-each-reply-within-a-topic-url/209648/8 > 2.html
nvim -d 1.html 2.html

Ein auffälliger Unterschied ist, dass die article:published_time unterschiedlich ist, obwohl sie wahrscheinlich gleich sein sollte, da die Seiten ansonsten fast identisch sind. Ich frage mich, ob diese Metatag dazu führen könnte, dass Google die kanonische URL überschreibt. Ein Google-Mitarbeiter sagt, dass kanonische URLs in bestimmten Fällen ignoriert werden können hier.

<meta property="article:published_time" content="2021-11-19T15:57:21+00:00" />
<meta property="article:published_time" content="2021-11-20T06:48:06+00:00" />

Außerdem, ist der ignore_canonical-Tag einzigartig für Discourse oder besteht die Möglichkeit, dass Google ihn befolgt? Ich habe ihn im HTML gesehen.

<meta property="og:ignore_canonical" content="true" />
3 „Gefällt mir“

Es könnte etwas ärgerlicher sein, aber wenn die URLs page=2, page=3 usw. immer noch funktionieren (was kein SEO-Problem darstellt wie die nummerierten Antworten), könnten Sie zumindest eine Person auf die richtige Seite innerhalb einer Konversation verlinken. Dies würde sie den größten Teil des Weges dorthin bringen, vorausgesetzt, sie sind bereit, ein wenig zu scrollen.

Ein Forum, das so funktioniert, ist BiggerPockets. Ihre Antworten haben keine einzeln nummerierten URLs, aber die Themen haben nummerierte Seiten, wie hier: Kids throwing rocks at windows nearly everyday. Won't stop. (achten Sie auf die URL, während Sie durch jedes Thema und jede Seite scrollen).

Ihr Forum ist seit jeher eine wichtige Komponente dessen, was die Website aus SEO-Sicht so besonders und erfolgreich macht, daher ist es ein ziemlich gutes Beispiel dafür, was funktioniert.

Interessant. Ich habe keine Ahnung, ob das das Problem verursacht oder nicht, aber ich kann sehen, wie die Inkonsistenz Google verwirren könnte, die kanonische URL zu ignorieren.

Selbst dann, angesichts der Funktionsweise von Foren, es sei denn, Sie wollten die Daten und Zeitpläne jedes Themas vollständig entfernen, könnten Sie dies nicht vermeiden, oder? Die Berücksichtigung der Daten und Zeiten jedes Beitrags und jeder Antwort ist gewissermaßen ein integraler Bestandteil der Funktionsweise von Foren.

1 „Gefällt mir“