Generische Regeln in "robots.txt" werden von Googlebot nicht erkannt

amotl · 1. März 2022 um 14:07

Sehr geehrtes Discourse-Team,

zunächst einmal möchten wir Sie für den Geist und die Ausdauer bei der Konzeption und Pflege von Discourse loben. Es ist für uns und unsere Community-Mitglieder immer eine Freude, es zu nutzen.

Wir haben einige kleinere Beobachtungen zusammengefasst, die wir heute gemacht haben, und hoffen, dass Sie sie nützlich finden. Andererseits würden wir uns auch freuen, von Ihnen zu hören, falls es auf unserer Seite Missverständnisse gibt.

Mit freundlichen Grüßen,
Andreas.

Einleitung

Bei der Untersuchung des Verhaltens unserer gehosteten Discourse-Instanz unter https://community.crate.io/ in Bezug auf ihre robots.txt-Definitionsdatei ^[1] haben wir festgestellt, dass Googlebot die Einstellungen möglicherweise nicht wie beabsichtigt berücksichtigt.

Bewertung

Lassen Sie uns dies im Namen der robots.txt auf Meta ^[2] mit meiner Profil-URL https://meta.discourse.org/u/amotl/ untersuchen.

Der Unterschied ist schnell durch den Vergleich der Ergebnisse dieses kostenlosen robots.txt-Validators zu erkennen:

– Mit Googlebot auswerten

– Mit MSNBot auswerten

Recherche

Zu diesem Thema glauben wir, die Antwort bereits gefunden zu haben:

Gedanken

Daher neigen wir dazu, anzunehmen, dass Googlebot derzeit möglicherweise die Regeln im Abschnitt User-agent: * ^[3] vollständig ignoriert und nur die Regeln im Abschnitt User-agent: Googlebot ^[4] berücksichtigt.

https://community.crate.io/robots.txt ↩︎
https://meta.discourse.org/robots.txt ↩︎

robots.txt, Abschnitt User-agent: *

User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tag
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /c/*.rss

↩︎

robots.txt, Abschnitt User-agent: Googlebot

User-agent: Googlebot
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /*?api_key*
Disallow: /*?*api_key*

↩︎

Jagster · 1. März 2022 um 14:13

Wenn ich das richtig verstanden habe, ist die Antwort nicht so einfach. Wenn ein einzelner Nutzer einen Link über Gmail gesendet hat, beachtet Googlebot die robots.txt nicht. Dasselbe gilt, wenn ein Link irgendwo geteilt wird (Backlinks), wo er für Googlebot wie ein normaler Link aussieht.

Nochmal – robots.txt ist nur eine Bitte.

Es gibt noch eine weitere, aber eher… Ziemlich viele Bots identifizieren sich als Googlebot und die Realität kann nur über die IP-Adresse ermittelt werden.

rrit · 1. März 2022 um 15:43

Das ist korrekt und wurde absichtlich so implementiert.

Daher erhält Googlebot für Seiten, die wirklich nicht indexiert werden sollen, einen zusätzlichen http-Header X-Robots-Tag: noindex. Siehe:

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

committed 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

Für Ihre eigenen Domains können Sie die Google Search Console verwenden → URL prüfen

Versuchen Sie dann, eine Benutzerprofil-URL zu indexieren – z. B. https://www.example.com/u/jacob

amotl · 1. März 2022 um 15:50

Liebe Ayke,

Bestätigt.

$ http https://meta.discourse.org/u/amotl --print hH | grep -i robot
X-Robots-Tag: noindex

Vielen Dank für Ihre schnelle Antwort und Erklärung sowie für den Hinweis auf den entsprechenden Patch.

Mit freundlichen Grüßen,
Andreas.

sam · 2. März 2022 um 22:11

Ich habe dies nach Support verschoben, vielen Dank für Ihre wunderbar geschriebene Fehlerbeschreibung hier.

Es hat uns so viel Zeit gekostet, unsere Regeln fein abzustimmen, um Google zufriedenzustellen. x-robots-tag noindex wird uneinheitlich unterstützt, ist aber ein Industriestandard. Das Problem bei der reinen Sperrung des Crawlings war, dass Seiten aus irgendeinem Grund unter bestimmten Bedingungen in den Google-Index gelangen konnten und es dann keine einfache Möglichkeit gab, sie zu entfernen, da das Crawling gesperrt war, ein Henne-und-Ei-Problem.

amotl · 3. März 2022 um 08:45

Sehr geehrter Sam,

vielen Dank, dass Sie weitere Details zu diesem Thema mitgeteilt haben. Wie immer bin ich erstaunt über das Maß an Großartigkeit, das Sie in jedes Detail von Discourse einfließen lassen.

Ich muss zugeben, dass ich das bisher nicht wusste. Also, nochmals vielen Dank!

Großartig. Danke. Wenn dies nun ein allgemein anerkannter Standard ist, besteht dann die Hoffnung, dass einige der kostenlosen robots.txt-Validatoren dies in Zukunft ebenfalls berücksichtigen werden?

Sind Ihnen welche bekannt, die heute bereits entsprechende zusätzliche Header-Prüfungen implementieren, zusätzlich zum Lesen der robots.txt, wie es die URL-Prüfung der Google Search Console tut? Das würde den Leuten wahrscheinlich helfen, die gleiche Verwirrung zu vermeiden, in die wir geraten sind.

Mit freundlichen Grüßen,
Andreas.

system · 2. April 2022 um 08:46

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

Thema		Antworten	Aufrufe
Pages listed in the robots.txt are crawled and indexed by Google Support	19	3277	30. Juli 2019
Excluding user profiles in robots.txt (or allow edit of file) Feature	5	2501	24. Mai 2014
Google changed how they process robots.txt in Discourse? Support	20	1684	22. Dezember 2020
Malformed robots.txt causing issues with indexing Support	9	1848	21. April 2023
Indexing User Profiles Support	2	65	4. September 2025

Generische Regeln in "robots.txt" werden von Googlebot nicht erkannt

Einleitung

Bewertung

Recherche

Gedanken

Verwandte Themen