Was Googlebot beim Crawlen von Discourse sieht

TL:DR, es ist semi-menschlich möglich, das Crawling von Discourse durch Googlebot zu replizieren. Hier ist, wie Sie anfangen können…

Werden Sie eins mit Googlebot

  1. Öffnen Sie ein Inkognito-Fenster (immer frisch beginnen)
  2. Öffnen Sie DevTools
  3. Öffnen Sie Network Conditions in DevTools
  4. Deaktivieren Sie „Browserstandard verwenden“
  5. Wählen Sie im Dropdown-Menü Googlebot Smartphone
  6. Gehen Sie dann zu https://meta.discourse.org (es sieht ganz anders aus; kein Problem, weil Ihr Googlebot und Bots sich nicht darum kümmern)
  7. Gehen Sie zu Ansicht > Entwickler > Quelltext anzeigen
  8. Kopieren Sie es und fügen Sie es in eine .html-Datei ein

Gute Arbeit! Sie haben die Datei erstellt, auf die sich Humans bezieht, um zu sehen, was Googlebot gecrawlt und gecacht hat.

Die Arbeit von Googlebot ist getan. Jetzt ist es an der Zeit, die gecachte Datei in einem Browser zu rendern.

Werden Sie eins mit Chrome

  1. Öffnen Sie das Terminal und führen Sie npx http-server aus
  2. Navigieren Sie zur Datei
  3. Öffnen Sie Chrome DevTools
  4. Klicken Sie im Elements-Panel mit der rechten Maustaste auf <html>... und wählen Sie „outerHTML kopieren“.
  5. Das ist der Inhalt, der indiziert wird, nicht gecacht, indiziert.

Zusammenfassend lässt sich sagen, dass Googlebot das HTML abruft und Chrome es rendert. Das gerenderte HTML ist Gold. Stellen Sie sicher, dass Ihre wertvollen Inhalte und Links dort erscheinen.

2 „Gefällt mir“

Was ist der Zweck der Schritte unter „Eins werden mit Chrome“?

Könnten Sie den Schritt „OuterHTML kopieren“ anstelle von Schritt 7 in der ersten Liste durchführen?

Ich glaube, Sie können es auch mit curl abrufen:

curl -s https://meta.discourse.org/ > page.html

(Es wird die \"crawler\"-Klassen enthalten.)

Öffnen Sie dann die Datei page.html in einem Browser.

Oder um den Code in einem Editor zu inspizieren:

curl -s https://meta.discourse.org/ | vim -
2 „Gefällt mir“

Der gecachte HTML wird in Chrome (headless) gerendert. Beim Rendern können zusätzliche Texte und Links über JavaScript im DOM eingeführt werden. Google berücksichtigt die gerenderten Informationen für die Indexierung.

So ruft Googlebot Inhalte aus JavaScript-lastigen Anwendungen ab. Gehen Sie zu Google und suchen Sie nach etwas, von dem Sie wissen, dass es Inhalte nur mit JavaScript rendert > klicken Sie auf das 3-Punkte-Symbol > klicken Sie auf die Schaltfläche „Cache“ > klicken Sie auf „Quelle anzeigen“ > kopieren Sie sie und rendern Sie sie in Chrome, um zu sehen, welche Inhalte im DOM erscheinen.

Hinweis: Aktualisieren Sie alle relativen Pfade (CSS- und JS-Ressourcen) auf absolute, bevor Sie sie in Chrome rendern ^^

Die Verwendung von curl erleichtert dies, schön!

Stellen Sie sicher, dass Sie den Googlebot-User-Agent-String einschließen, z. B. Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Der Server sendet möglicherweise unterschiedliche HTML-Daten an Googlebot.

Ich denke, es ist die gleiche Ausgabe, aber es schadet nicht, den User-Agent hinzuzufügen. Ich bin mir bei Chrome nicht sicher, aber in Firefox können Sie mit der rechten Maustaste auf die Anfrage im Netzwerk-Tab klicken und “Als cURL kopieren” wählen, um eine vollständige Reihe von Headern zu erhalten, die eine Browser-Anfrage nachahmen.