Hallo @kirupa,
Nur zur Information: Wenn Google zwei Seiten innerhalb derselben Domain indiziert, z. B. in deinem Beispiel kirupa.com mit ähnlichem Inhalt, wählt der Algorithmus von Google in der Regel eine der Seiten als kanonisch aus. Diese Seite wird dann in den Suchergebnissen höher platziert (es ist nicht wirklich eine „Strafe“, sondern eher eine „kanonische Auswahl“). Google kann die Seite, die es als nicht kanonisch einstuft, sogar aus dem Index entfernen.
Google hat dies deutlich gemacht: Die Idee einer „Strafe für doppelte Inhalte“ ist größtenteils ein Mythos. Es geht vielmehr um „Kanonisierung“ und „Auswahl“:
Wenn deine Website mehrere Seiten mit weitgehend identischem Inhalt enthält, gibt es verschiedene Möglichkeiten, Google deine bevorzugte URL mitzuteilen. (Dies wird als „Kanonisierung“ bezeichnet.) Weitere Informationen zur Kanonisierung. (Ref 1)
Wenn du beispielsweise deine alte Seite zusammen mit deiner neuen Seite online lässt, kannst du das link canonical-Tag verwenden, um Google mitzuteilen, dass deine neue Seite die kanonische Seite ist. Google wird dann deine neue Seite priorisieren.
Eine bessere Lösung besteht darin, Suchmaschinen das Crawlen dieser URLs zu ermöglichen, sie jedoch als Duplikate zu kennzeichnen, indem du das Link-Element rel="canonical", das Werkzeug zur Behandlung von URL-Parametern oder 301-Weiterleitungen verwendest. Falls doppelte Inhalte dazu führen, dass zu viel deiner Website gecrawlt wird, kannst du auch die Einstellung für die Crawling-Rate in der Search Console anpassen. (Ref 1)
Beispiel:
<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />
@kirupa, du hast auch gefragt:
Wird jedes Thema von Google als indizierbare „Seite“ betrachtet? Der Grund für meine Frage ist, dass ein großer Teil der Themen in unserem Forum nicht in der Datenbank von Google enthalten ist.
Für eine großartige (wenn auch etwas veraltete) Diskussion über Google und unendliches Scrollen empfehle ich den offiziellen Google Webmaster Central Blog (Ref 2):
https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html
@kirupa, eine praktische Möglichkeit zur Überprüfung (nicht nur theoretisch) besteht darin, die GSC zu verwenden und den „Screenshot“ anzusehen, der zeigt, wie Google deine Seite darstellt. Dies lässt sich einfach mit der Funktion „Auf Mobilgeräten nutzbar prüfen“ in der GSC durchführen (zum Beispiel). Wenn du einen sehr langen Beitrag in Discourse hast, kannst du prüfen, wie viel von dieser Seite Google indiziert (liest und indiziert). Es gibt viele Meinungen zum unendlichen Scrollen und dazu, wie Google diese Seiten indiziert. Du kannst die GSC verwenden, um deine Seiten zu überprüfen, und selbst sehen, was passiert.
Laut Martin Splitt von Google (siehe Referenz 3), am 14. April 2020:
Splitt nannte als Beispiel eine Nachrichtenseite, die auf unendliches Scrollen (auch als „Lazy Loading“ bezeichnet) setzt, um neue Inhalte zu laden.
Das bedeutet, dass die Webseite, in diesem Fall die Startseite, keine zusätzlichen Inhalte lädt, bis ein Besucher bis zum unteren Rand des Bildschirms scrollt.
Splitt erklärt, warum das ein Problem ist: „Was Googlebot nicht tut? Er scrollt nicht.“
Googlebot landet auf einer Seite und crawlt nur das, was sofort sichtbar ist.
Laut Splitt kann Googlebot keine Inhalte crawlen, die erst nach dem Scrollen auf einer Seite geladen werden.
Wie bereits erwähnt, @kirupa, kannst du deine eigenen Seiten mit Tools in der GSC überprüfen, die dir einen Schnappschuss davon zeigen, wie Google deine Seiten betrachtet (und indiziert).
Laut Google’s Splitt im April 2020: „Googlebot scrollt nicht.“ (paraphrasiert)
Bezüglich der Frage nach „Google-Suchindizierung und Discourse“ kann jeder Websitebesitzer ganz einfach die GSC verwenden, um festzustellen, wie Googlebot eine bestimmte Seite indiziert.
Meine Empfehlung, und ich hoffe, das hilft dir ein wenig, lautet: Verwende die GSC (Google Search Console), um deine eigenen Seiten zu überprüfen, falls du Fragen dazu hast, wie Googlebot deine Seiten indiziert.
Referenzen:
-
How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central | Documentation | Google for Developers
-
https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html
-
Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems