Was Googlebot beim Crawlen von Discourse sieht

networkaaron · 20. Dezember 2021 um 20:05

TL:DR, es ist semi-menschlich möglich, das Crawling von Discourse durch Googlebot zu replizieren. Hier ist, wie Sie anfangen können…

Werden Sie eins mit Googlebot

Öffnen Sie ein Inkognito-Fenster (immer frisch beginnen)
Öffnen Sie DevTools
Öffnen Sie Network Conditions in DevTools
Deaktivieren Sie „Browserstandard verwenden“
Wählen Sie im Dropdown-Menü Googlebot Smartphone
Gehen Sie dann zu https://meta.discourse.org (es sieht ganz anders aus; kein Problem, weil Ihr Googlebot und Bots sich nicht darum kümmern)
Gehen Sie zu Ansicht > Entwickler > Quelltext anzeigen
Kopieren Sie es und fügen Sie es in eine .html-Datei ein

Gute Arbeit! Sie haben die Datei erstellt, auf die sich Humans bezieht, um zu sehen, was Googlebot gecrawlt und gecacht hat.

Die Arbeit von Googlebot ist getan. Jetzt ist es an der Zeit, die gecachte Datei in einem Browser zu rendern.

Werden Sie eins mit Chrome

Öffnen Sie das Terminal und führen Sie npx http-server aus
Navigieren Sie zur Datei
Öffnen Sie Chrome DevTools
Klicken Sie im Elements-Panel mit der rechten Maustaste auf <html>... und wählen Sie „outerHTML kopieren“.
Das ist der Inhalt, der indiziert wird, nicht gecacht, indiziert.

Zusammenfassend lässt sich sagen, dass Googlebot das HTML abruft und Chrome es rendert. Das gerenderte HTML ist Gold. Stellen Sie sicher, dass Ihre wertvollen Inhalte und Links dort erscheinen.

david · 20. Dezember 2021 um 20:35

Was ist der Zweck der Schritte unter „Eins werden mit Chrome“?

Könnten Sie den Schritt „OuterHTML kopieren“ anstelle von Schritt 7 in der ersten Liste durchführen?

j127 · 22. Dezember 2021 um 01:50

Ich glaube, Sie können es auch mit curl abrufen:

curl -s https://meta.discourse.org/ > page.html

(Es wird die \"crawler\"-Klassen enthalten.)

Öffnen Sie dann die Datei page.html in einem Browser.

Oder um den Code in einem Editor zu inspizieren:

curl -s https://meta.discourse.org/ | vim -

networkaaron · 13. Januar 2022 um 14:22

Der gecachte HTML wird in Chrome (headless) gerendert. Beim Rendern können zusätzliche Texte und Links über JavaScript im DOM eingeführt werden. Google berücksichtigt die gerenderten Informationen für die Indexierung.

So ruft Googlebot Inhalte aus JavaScript-lastigen Anwendungen ab. Gehen Sie zu Google und suchen Sie nach etwas, von dem Sie wissen, dass es Inhalte nur mit JavaScript rendert > klicken Sie auf das 3-Punkte-Symbol > klicken Sie auf die Schaltfläche „Cache“ > klicken Sie auf „Quelle anzeigen“ > kopieren Sie sie und rendern Sie sie in Chrome, um zu sehen, welche Inhalte im DOM erscheinen.

Hinweis: Aktualisieren Sie alle relativen Pfade (CSS- und JS-Ressourcen) auf absolute, bevor Sie sie in Chrome rendern ^^

networkaaron · 13. Januar 2022 um 14:39

Die Verwendung von curl erleichtert dies, schön!

Stellen Sie sicher, dass Sie den Googlebot-User-Agent-String einschließen, z. B. Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Der Server sendet möglicherweise unterschiedliche HTML-Daten an Googlebot.

j127 · 13. Januar 2022 um 21:13

Ich denke, es ist die gleiche Ausgabe, aber es schadet nicht, den User-Agent hinzuzufügen. Ich bin mir bei Chrome nicht sicher, aber in Firefox können Sie mit der rechten Maustaste auf die Anfrage im Netzwerk-Tab klicken und “Als cURL kopieren” wählen, um eine vollständige Reihe von Headern zu erhalten, die eine Browser-Anfrage nachahmen.

Thema		Antworten	Aufrufe
Googlebot is getting non-javascript version of the site Development	16	1655	9. März 2024
How public Discourse sites are indexed by search engines like Google Site Management reference	0	12858	6. Februar 2013
Disable or bypass feature detect for Googlebot (while serving JS app to crawlers) Support unsupported-install	7	3435	14. Juni 2022
Can we have a conversation about SEO? Development	2	864	4. April 2022
No content on homepage for Googlebot Bug	6	1930	16. März 2016

Was Googlebot beim Crawlen von Discourse sieht

Verwandte Themen