zunächst einmal möchten wir Sie für den Geist und die Ausdauer bei der Konzeption und Pflege von Discourse loben. Es ist für uns und unsere Community-Mitglieder immer eine Freude, es zu nutzen.
Wir haben einige kleinere Beobachtungen zusammengefasst, die wir heute gemacht haben, und hoffen, dass Sie sie nützlich finden. Andererseits würden wir uns auch freuen, von Ihnen zu hören, falls es auf unserer Seite Missverständnisse gibt.
Mit freundlichen Grüßen,
Andreas.
Einleitung
Bei der Untersuchung des Verhaltens unserer gehosteten Discourse-Instanz unter https://community.crate.io/ in Bezug auf ihre robots.txt-Definitionsdatei [1] haben wir festgestellt, dass Googlebot die Einstellungen möglicherweise nicht wie beabsichtigt berücksichtigt.
Bewertung
Lassen Sie uns dies im Namen der robots.txt auf Meta [2] mit meiner Profil-URL https://meta.discourse.org/u/amotl/ untersuchen.
Der Unterschied ist schnell durch den Vergleich der Ergebnisse dieses kostenlosen robots.txt-Validators zu erkennen:
Zu diesem Thema glauben wir, die Antwort bereits gefunden zu haben:
Gedanken
Daher neigen wir dazu, anzunehmen, dass Googlebot derzeit möglicherweise die Regeln im Abschnitt User-agent: *[3] vollständig ignoriert und nur die Regeln im Abschnitt User-agent: Googlebot[4] berücksichtigt.
Wenn ich das richtig verstanden habe, ist die Antwort nicht so einfach. Wenn ein einzelner Nutzer einen Link über Gmail gesendet hat, beachtet Googlebot die robots.txt nicht. Dasselbe gilt, wenn ein Link irgendwo geteilt wird (Backlinks), wo er für Googlebot wie ein normaler Link aussieht.
Nochmal – robots.txt ist nur eine Bitte.
Es gibt noch eine weitere, aber eher… Ziemlich viele Bots identifizieren sich als Googlebot und die Realität kann nur über die IP-Adresse ermittelt werden.
Ich habe dies nach Support verschoben, vielen Dank für Ihre wunderbar geschriebene Fehlerbeschreibung hier.
Es hat uns so viel Zeit gekostet, unsere Regeln fein abzustimmen, um Google zufriedenzustellen. x-robots-tag noindex wird uneinheitlich unterstützt, ist aber ein Industriestandard. Das Problem bei der reinen Sperrung des Crawlings war, dass Seiten aus irgendeinem Grund unter bestimmten Bedingungen in den Google-Index gelangen konnten und es dann keine einfache Möglichkeit gab, sie zu entfernen, da das Crawling gesperrt war, ein Henne-und-Ei-Problem.
vielen Dank, dass Sie weitere Details zu diesem Thema mitgeteilt haben. Wie immer bin ich erstaunt über das Maß an Großartigkeit, das Sie in jedes Detail von Discourse einfließen lassen.
Ich muss zugeben, dass ich das bisher nicht wusste. Also, nochmals vielen Dank!
Großartig. Danke. Wenn dies nun ein allgemein anerkannter Standard ist, besteht dann die Hoffnung, dass einige der kostenlosen robots.txt-Validatoren dies in Zukunft ebenfalls berücksichtigen werden?
Sind Ihnen welche bekannt, die heute bereits entsprechende zusätzliche Header-Prüfungen implementieren, zusätzlich zum Lesen der robots.txt, wie es die URL-Prüfung der Google Search Console tut? Das würde den Leuten wahrscheinlich helfen, die gleiche Verwirrung zu vermeiden, in die wir geraten sind.