TL:DR, es ist semi-menschlich möglich, das Crawling von Discourse durch Googlebot zu replizieren. Hier ist, wie Sie anfangen können…
Werden Sie eins mit Googlebot
Öffnen Sie ein Inkognito-Fenster (immer frisch beginnen)
Öffnen Sie DevTools
Öffnen Sie Network Conditions in DevTools
Deaktivieren Sie „Browserstandard verwenden“
Wählen Sie im Dropdown-Menü Googlebot Smartphone
Gehen Sie dann zu https://meta.discourse.org (es sieht ganz anders aus; kein Problem, weil Ihr Googlebot und Bots sich nicht darum kümmern)
Gehen Sie zu Ansicht > Entwickler > Quelltext anzeigen
Kopieren Sie es und fügen Sie es in eine .html-Datei ein
Gute Arbeit! Sie haben die Datei erstellt, auf die sich Humans bezieht, um zu sehen, was Googlebot gecrawlt und gecacht hat.
Die Arbeit von Googlebot ist getan. Jetzt ist es an der Zeit, die gecachte Datei in einem Browser zu rendern.
Werden Sie eins mit Chrome
Öffnen Sie das Terminal und führen Sie npx http-server aus
Navigieren Sie zur Datei
Öffnen Sie Chrome DevTools
Klicken Sie im Elements-Panel mit der rechten Maustaste auf <html>... und wählen Sie „outerHTML kopieren“.
Das ist der Inhalt, der indiziert wird, nicht gecacht, indiziert.
Zusammenfassend lässt sich sagen, dass Googlebot das HTML abruft und Chrome es rendert. Das gerenderte HTML ist Gold. Stellen Sie sicher, dass Ihre wertvollen Inhalte und Links dort erscheinen.
Der gecachte HTML wird in Chrome (headless) gerendert. Beim Rendern können zusätzliche Texte und Links über JavaScript im DOM eingeführt werden. Google berücksichtigt die gerenderten Informationen für die Indexierung.
So ruft Googlebot Inhalte aus JavaScript-lastigen Anwendungen ab. Gehen Sie zu Google und suchen Sie nach etwas, von dem Sie wissen, dass es Inhalte nur mit JavaScript rendert > klicken Sie auf das 3-Punkte-Symbol > klicken Sie auf die Schaltfläche „Cache“ > klicken Sie auf „Quelle anzeigen“ > kopieren Sie sie und rendern Sie sie in Chrome, um zu sehen, welche Inhalte im DOM erscheinen.
Hinweis: Aktualisieren Sie alle relativen Pfade (CSS- und JS-Ressourcen) auf absolute, bevor Sie sie in Chrome rendern ^^
Stellen Sie sicher, dass Sie den Googlebot-User-Agent-String einschließen, z. B. Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Der Server sendet möglicherweise unterschiedliche HTML-Daten an Googlebot.
Ich denke, es ist die gleiche Ausgabe, aber es schadet nicht, den User-Agent hinzuzufügen. Ich bin mir bei Chrome nicht sicher, aber in Firefox können Sie mit der rechten Maustaste auf die Anfrage im Netzwerk-Tab klicken und “Als cURL kopieren” wählen, um eine vollständige Reihe von Headern zu erhalten, die eine Browser-Anfrage nachahmen.