Google-Suchindexierung und Diskurs

Hallo zusammen!

Ich habe die verschiedenen Beiträge darüber gelesen, dass der Google-Crawler keine Schwierigkeiten hat, ein Discourse-Forum zu indexieren. Meine Frage ist jedoch etwas anders: Wird jedes Thema von Google als indexierbare „Seite" betrachtet? Der Grund, warum ich das frage, ist, dass ein großer Teil der Themen in unserem Forum nicht in der Google-Datenbank enthalten ist. Dies wird durch einen Blick auf die Daten der Google Search Console bestätigt:

Es existieren nur etwa 17.000 Einträge, und die Foren haben mehrere hunderttausend Themen (vielleicht sogar Millionen?). Die robots.txt-Fehler beziehen sich auf Seiten, die zu Recht nicht indexiert werden sollten. Das deutet darauf hin, dass der Crawler nicht automatisch alle älteren Themen so besucht, wie er sollte.

Gibt es eine Einstellung, die ich aktivieren muss, um sicherzustellen, dass mehr der älteren Themen zeitnah indexiert werden? Für Inhalte oberhalb des sichtbaren Bereichs („above the fold") sind die Indexierung und die Ergebnisse von Google sehr gut. Dies betrifft nur Themen, die zufällig unterhalb des sichtbaren Bereichs liegen.

Vielen Dank,
Kirupa

Für ein Experiment habe ich Meta mit der Crawler-Ansicht und dem GoogleBot-User-Agent geladen. Dann bin ich bis zur Seite 666 unserer neuesten Liste gegangen, die Themen enthält, die Mitte 2017, also fast vor 3 Jahren, zuletzt aktualisiert wurden.

Eines der Themen in der Liste ist Tiefe Integration von Discourse in eine Ionic-App. Ich habe eine Google-Suche ohne Anmeldung durchgeführt, und die Suche nach „integration discourse ionic

Wenn du die Indexierung beschleunigen musst, könntest du das Sitemap-Plugin ausprobieren.

Das Standard-Crawling erfasst zwar alles, aber eine Sitemap könnte dazu beitragen, dass Inhalte schneller indexiert werden.

Bitte poste die Ergebnisse, falls du es ausprobierst.

Könntest du außerdem 5 Beispiele für großartige, einzigartige Inhalte auf deinem Forum posten, die zu 100 % in Google fehlen?

Vielleicht berücksichtigt Google auch die Aktivität eines Themas (falls ein Zähler vorhanden ist) oder dass das Thema Links enthält, auf die aktiv geklickt wird. Google besucht möglicherweise bestimmte Seiten nicht, die es für Nutzer als „nicht interessant

@Falco – ja, die Foren wurden tatsächlich von vBulletin migriert, aber das war Ende 2014. Ich habe alle öffentlichen Links zu den alten Foren entfernt, sodass keine Gefahr besteht, dass doppelte Inhalte die Suchmaschinenindexierung beeinträchtigen.

@sam – ja, hier sind ein paar Beispiele:

Alle diese Beiträge habe ich in den letzten drei Jahren irgendwann auf Twitter oder einer öffentlichen Facebook-Seite erwähnt, also sind sie nicht für immer im Verborgenen verschüttet.

Was das Sitemap-Plugin angeht, werde ich das gerne ausprobieren. Ich poste alle Daten, die ich finden kann. Danke an alle, die sich die Zeit genommen haben, zu helfen :slight_smile:

Viele Grüße,
Kirupa

Das ist mein drittes Suchergebnis für „js using generators animate example".

Das war vielleicht ein schlechtes Beispiel für einen Beitrag, den ich heute veröffentlichen sollte, denn ich habe diesen Eintrag vor ein paar Stunden manuell zur Indexierung eingereicht – als Test. So sah das Ergebnis für diesen Suchbegriff vor 7 Stunden für einen meiner Foren-Administratoren aus:

Du hast recht, es ist derzeit eines der Top-Ergebnisse. Ich frage mich, ob die manuelle Indexierung damit zu tun hatte.

EDIT: Ich habe gerade das Sitemap-Plugin eingerichtet und werde die Sitemap zur Indexierung bei Google einreichen!

Hallo @kirupa,

Nur zur Information: Wenn Google zwei Seiten innerhalb derselben Domain indiziert, z. B. in deinem Beispiel kirupa.com mit ähnlichem Inhalt, wählt der Algorithmus von Google in der Regel eine der Seiten als kanonisch aus. Diese Seite wird dann in den Suchergebnissen höher platziert (es ist nicht wirklich eine „Strafe“, sondern eher eine „kanonische Auswahl“). Google kann die Seite, die es als nicht kanonisch einstuft, sogar aus dem Index entfernen.

Google hat dies deutlich gemacht: Die Idee einer „Strafe für doppelte Inhalte“ ist größtenteils ein Mythos. Es geht vielmehr um „Kanonisierung“ und „Auswahl“:

Wenn deine Website mehrere Seiten mit weitgehend identischem Inhalt enthält, gibt es verschiedene Möglichkeiten, Google deine bevorzugte URL mitzuteilen. (Dies wird als „Kanonisierung“ bezeichnet.) Weitere Informationen zur Kanonisierung. (Ref 1)

Wenn du beispielsweise deine alte Seite zusammen mit deiner neuen Seite online lässt, kannst du das link canonical-Tag verwenden, um Google mitzuteilen, dass deine neue Seite die kanonische Seite ist. Google wird dann deine neue Seite priorisieren.

Eine bessere Lösung besteht darin, Suchmaschinen das Crawlen dieser URLs zu ermöglichen, sie jedoch als Duplikate zu kennzeichnen, indem du das Link-Element rel="canonical", das Werkzeug zur Behandlung von URL-Parametern oder 301-Weiterleitungen verwendest. Falls doppelte Inhalte dazu führen, dass zu viel deiner Website gecrawlt wird, kannst du auch die Einstellung für die Crawling-Rate in der Search Console anpassen. (Ref 1)

Beispiel:

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

@kirupa, du hast auch gefragt:

Wird jedes Thema von Google als indizierbare „Seite“ betrachtet? Der Grund für meine Frage ist, dass ein großer Teil der Themen in unserem Forum nicht in der Datenbank von Google enthalten ist.

Für eine großartige (wenn auch etwas veraltete) Diskussion über Google und unendliches Scrollen empfehle ich den offiziellen Google Webmaster Central Blog (Ref 2):

https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

@kirupa, eine praktische Möglichkeit zur Überprüfung (nicht nur theoretisch) besteht darin, die GSC zu verwenden und den „Screenshot“ anzusehen, der zeigt, wie Google deine Seite darstellt. Dies lässt sich einfach mit der Funktion „Auf Mobilgeräten nutzbar prüfen“ in der GSC durchführen (zum Beispiel). Wenn du einen sehr langen Beitrag in Discourse hast, kannst du prüfen, wie viel von dieser Seite Google indiziert (liest und indiziert). Es gibt viele Meinungen zum unendlichen Scrollen und dazu, wie Google diese Seiten indiziert. Du kannst die GSC verwenden, um deine Seiten zu überprüfen, und selbst sehen, was passiert.

Laut Martin Splitt von Google (siehe Referenz 3), am 14. April 2020:

Splitt nannte als Beispiel eine Nachrichtenseite, die auf unendliches Scrollen (auch als „Lazy Loading“ bezeichnet) setzt, um neue Inhalte zu laden.

Das bedeutet, dass die Webseite, in diesem Fall die Startseite, keine zusätzlichen Inhalte lädt, bis ein Besucher bis zum unteren Rand des Bildschirms scrollt.

Splitt erklärt, warum das ein Problem ist: „Was Googlebot nicht tut? Er scrollt nicht.“

Googlebot landet auf einer Seite und crawlt nur das, was sofort sichtbar ist.

Laut Splitt kann Googlebot keine Inhalte crawlen, die erst nach dem Scrollen auf einer Seite geladen werden.

Wie bereits erwähnt, @kirupa, kannst du deine eigenen Seiten mit Tools in der GSC überprüfen, die dir einen Schnappschuss davon zeigen, wie Google deine Seiten betrachtet (und indiziert).

Laut Google’s Splitt im April 2020: „Googlebot scrollt nicht.“ (paraphrasiert)

Bezüglich der Frage nach „Google-Suchindizierung und Discourse“ kann jeder Websitebesitzer ganz einfach die GSC verwenden, um festzustellen, wie Googlebot eine bestimmte Seite indiziert.

Meine Empfehlung, und ich hoffe, das hilft dir ein wenig, lautet: Verwende die GSC (Google Search Console), um deine eigenen Seiten zu überprüfen, falls du Fragen dazu hast, wie Googlebot deine Seiten indiziert.

Referenzen:

  1. How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

  2. https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

  3. Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems

Vielen Dank für die wirklich großartige Antwort, @neounix! Ich werde mich in Kürze durcharbeiten und deine Vorschläge umsetzen :slight_smile:

Die alten Foren (kirupaForum) wieder sichtbar zu machen und auf dem neuen/aktiven Forum das kanonische Meta-Tag zu verwenden, klingt nach einer guten Idee. Ich werde das diese Woche ausprobieren.

In der Zwischenzeit habe ich eine Sitemap mit rund 300.000 Einträgen bei der Google Search Console eingereicht.

Lieber @kirupa,

Gerne geschehen.

Zur Info:

Discourse-Foren fügen Themen automatisch das kanonische Tag hinzu.

Hier ist ein Link zu deinem Forum, und der Quellcode zeigt dies für eines deiner Beispiele (oben):

Screen Shot 2020-06-09 at 1.48.45 PM

Du kannst sehen, dass deine Discourse-Seite bereits ein kanonisches Tag enthält.

Ein „Trick