Fehlerhafte robots.txt verursacht Probleme bei der Indexierung

Hallo zusammen,

uns ist gerade aufgefallen, dass unser Discourse-Forum von Google nicht indiziert wird (wir erinnern uns, dass es vor etwa einem Jahr noch indiziert war), und wir versuchen, das sofort zu beheben. Welche Konfigurationen müssen wir sicherstellen, dass sie korrekt eingestellt sind?

Das habe ich bisher gemacht:

  1. Ich habe sichergestellt, dass „Indexierung in der robots.txt erlauben” aktiviert ist.

  2. Ich habe die folgenden Domains zu „Domains mit rel=nofollow ausschließen” hinzugefügt:

    • grakn.ai (unsere Hauptdomain)
    • discuss.grakn.ai (unsere Discourse-Forum-Domain)
  3. Ich habe sichergestellt, dass „rel=nofollow zu Benutzerinhalten hinzufügen” deaktiviert ist.

  4. Ich habe Googlebot zu „whitelistete Crawler-Benutzeragenten” hinzugefügt.

Fehlt mir noch eine andere Konfiguration, die ich setzen muss?

In unserer Google Search Console wird angezeigt, dass discuss.grakn.ai möglicherweise immer noch nicht gecrawlt werden kann, da es durch robots.txt blockiert wird – siehe Screenshot unten.

Vielen Dank im Voraus für die Hilfe!!!

Admin → Einstellungen → robots.txt aktivieren

Ihre Forum-robots.txt-Datei ist unter folgender Adresse verfügbar: https://discuss.grakn.ai/robots.txt

Melden Sie sich bei den Google Search Console an und prüfen Sie: https://www.google.com/webmasters/tools/robots-testing-tool

Mit den Standardwerten funktioniert das sofort einwandfrei. Hast du diese Einstellungen bei der ursprünglichen Installation geändert?

Die robots.txt-Datei enthält diesen Text in der Mitte, was möglicherweise Probleme mit Crawlern verursacht:

User-agent: *
Disallow: /
Noindex: /

Google indiziert jedoch Seiten:

Es könnte sein, dass Googlebot nach deinen Google-spezifischen Regeln sucht und Webmaster Tools dich vor dem Wildcard-Symbol warnt.

(Ich bin mir nicht sicher, welche Einstellungen zu dieser robots.txt-Ausgabe führen.)

Ja.

  1. Zugriff: https://discuss.grakn.ai/admin/customize/robots

  2. Entfernen:

    User-agent: *
    Disallow: /
    Noindex: /

  3. Gehen Sie zu den Google Webmaster Tools: https://www.google.com/webmasters/tools/robots-testing-tool

Wählen Sie eine verifizierte Eigenschaft aus und reichen Sie die robots.txt erneut bei Google ein.

Ich denke, das sollte funktionieren.

Schließlich hat das Entfernen des folgenden Blocks das Problem behoben.

User-agent: *
Disallow: /
Noindex: /

Vielen Dank an @j127 und @tohaitrieu!!!

Die Google Search Console zeigt nun an, dass discuss.grakn.ai zur Indizierung in der Warteschlange steht.

Cheers!

Ich bin sehr verwirrt darüber, wie es zu diesem Zustand gekommen ist. Haben Sie Standardeinstellungen der Website in Bezug auf das Crawling geändert?

Ich bin auch nicht klar darüber, wie wir in den oben genannten Zustand gelangt sind, @codinghorror. Ich war in den letzten Monaten der Administrator der Seite und habe nichts in Bezug auf die oben genannten Dinge geändert. Ich erinnere mich, dass ich lange Zeit kein Upgrade durchgeführt habe und dann kurz vor dem Auftreten des oben genannten Problems eines durchgeführt habe, aber ich weiß nicht, ob das damit zusammenhängt.