Hat Google die Verarbeitung von robots.txt in Discourse geändert?

Meine Board-Seite ist seit einigen Wochen mit meiner Website verknüpft, und ich habe die URL bei Google eingereicht. Ich erhielt eine Warnung bezüglich „no index“, die sich jedoch nur auf Profilseiten bezog, was gut ist.

Dennoch erscheint noch nichts in Google. Muss ich auf der Board-Seite noch etwas tun, oder muss ich einfach nur abwarten, bis Google die Seite nun crawlt?

Vielleicht können Sie es mit https://search.google.com/search-console/ versuchen?

Es scheint, als würden die Roboter-Dateien die Beitragsseiten blockieren, aber das habe ich nicht eingerichtet. Gibt es eine Einstellung in Discourse, die ich ändern muss, um den Zugang zu ermöglichen? Vielen Dank.

Es gibt eine Site-Einstellung. Suche in deinen Site-Einstellungen nach allow index in robots txt. Sie sollte aktiviert sein (standardmäßig ist sie aktiviert).

2 „Gefällt mir“

Danke, Sam. Diese Einstellung ist aktiviert, ist das richtig so?

Entschuldigung, ich verwechsle das gerade. Es sieht so aus, als wären die blockierten URLs die RSS-Feed-Äquivalente.

Ich vermute, es ist einfach eine Frage des Wartens, bis Google die Seite aktualisiert oder neu durchsucht.

Ja, das wiederholt sich ständig und führt zu Supportanfragen.

Googlebot ist etwas lästig. Man kann ihm in der robots.txt nicht mitteilen, dass etwas nicht indexiert werden soll. Wir arbeiten an einer Lösung, um Googlebot zufriedenzustellen, aber es wird einige Zeit dauern, bis sie ausgerollt ist.

  • Wir sagen Googlebot in der robots.txt: „Hey … geh nicht herum und indexiere alle .rss-Seiten auf der Website"

  • Googlebot findet irgendwo einen Link zu einer .rss-Datei auf der Website

  • Googlebot beschwert sich dann bei den Seitenbetreibern, dass es eine .rss-Datei auf der Website gibt, kann aber nicht herausfinden, was mit dem Link zu tun ist, da es nicht erlaubt ist, ihn zu indexieren. Manchmal fügt es diesen Inhalt sogar in die Suchergebnisse ein.

  • Die Seitenbetreiber beschweren sich dann im Meta-Bereich

Unsere allgemeine Lösung hier ist einfach, Googlebot jede Seite der Website durchsuchen zu lassen und mit Canonical-Tags und Indexierungshinweisen in den HTTP-Headern den Weg zum Erfolg zu weisen.

Ich arbeite mit @jomaxro daran und wir haben bereits gute Fortschritte gemacht.

(fyi @codinghorror)

7 „Gefällt mir“

Danke für das Update, Sam. Das ergibt alles Sinn, und ich kann deinen Schmerz nachvollziehen. Ich bin zwar kein SEO-Experte, aber ich habe früher größere Websites geleitet und mit SEO-Teams zusammengearbeitet. In Foren war das oft sehr knifflig!

1 „Gefällt mir“

Um Missverständnisse auszuschließen: Dies hat nichts mit der Tatsache zu tun, dass es sich um ein Diskussionsforum handelt. Es geht um die … interessante … Art und Weise, wie Google mit robots.txt umgeht. Siehe Robots.txt Introduction and Guide | Google Search Central  |  Documentation  |  Google for Developers

Eine durch robots.txt gesperrte Seite kann dennoch indiziert werden, wenn sie von anderen Websites verlinkt wird
Obwohl Google den Inhalt, der durch robots.txt blockiert wird, nicht crawlt oder indiziert, können wir eine gesperrte URL dennoch finden und indizieren, wenn sie von anderen Stellen im Web verlinkt wird. Folglich können die URL-Adresse und potenziell andere öffentlich verfügbare Informationen, wie z. B. Ankertexte in Links zur Seite, weiterhin in den Google-Suchergebnissen erscheinen. Um sicherzustellen, dass Ihre URL nicht in den Google-Suchergebnissen angezeigt wird, sollten Sie die Dateien auf Ihrem Server passwortgeschützt machen oder das Meta-Tag noindex oder den Response-Header verwenden (oder die Seite vollständig entfernen).

Wir haben Seiten, die wir nicht indiziert haben möchten, seit langem in die standardmäßige robots.txt-Datei jedes Discourse-Standsorts aufgenommen. Dies funktionierte bisher einwandfrei. Zu einem unbekannten Zeitpunkt in der Vergangenheit reichte dies jedoch nicht mehr aus; Google entschied sich, Seiten zu indizieren, die von anderen Orten aus verlinkt wurden, selbst wenn sie über robots.txt gesperrt waren.

Deshalb haben wir Anfang dieses Jahres mit dem Testen von noindex-Headern für bestimmte Seiten begonnen. Das hätte hervorragend funktioniert, gäbe es nicht einen Konflikt zwischen robots.txt und dem Header. Siehe Block Search Indexing with noindex | Google Search Central  |  Documentation  |  Google for Developers

Wichtig! Damit die Direktive noindex wirksam ist, darf die Seite nicht durch eine robots.txt-Datei blockiert sein. Ist die Seite durch robots.txt blockiert, wird der Crawler die Direktive noindex niemals sehen, und die Seite kann dennoch in den Suchergebnissen erscheinen, beispielsweise wenn andere Seiten auf sie verlinken.

Das führt uns zu heute. Wir testen das Entfernen bestimmter Seiten aus der robots.txt. Wir müssen vorsichtig sein, da wir all diese Änderungen basierend auf der Google-Dokumentation vornehmen. Wir wissen also, dass wir mit Googlebot kompatibel sind, müssen aber auch andere wichtige Crawler überprüfen, um sicherzustellen, dass wir dort keine Probleme verursachen.

6 „Gefällt mir“

Zitiert zur Betonung. Google hat hier das Verhalten geändert, nicht wir, daher wird es etwas Zeit brauchen, sich anzupassen.

7 „Gefällt mir“

Hallo Jeff, das ergibt für mich alles Sinn und ich habe es verstanden. Ich wollte nur sichergehen, dass ich nicht versehentlich etwas getan habe, wodurch die Thread-Seiten in meiner Google-Einstellung ausgeblendet wurden? Die Haupt-Startseite und die Kategorien werden in Google angezeigt, aber keine der Thread-Seiten, das ist schon ein paar Monate her. Hier ist meine Seite: https://community.jackwallington.com/

Ich glaube, wir haben auf unserer Seite alle notwendigen Anpassungen vorgenommen, um die kürzlichen Änderungen im Verhalten von Google zu berücksichtigen. Vielleicht kann @jomaxro das bestätigen? Sie sollten die neueste Version von Discourse verwenden.

Ich bin mir nicht sicher, muss das noch prüfen. Ich glaube, wir haben während der Tests einige manuelle Änderungen an der robots.txt vorgenommen (nur bei Meta).

1 „Gefällt mir“

Wenn man sich discourse/app/controllers/robots_txt_controller.rb at main · discourse/discourse · GitHub ansieht, scheinen die Änderungen lokal zu sein (nur Meta). Ich werde das beheben. Wir haben noch ein paar langlaufende Tests, aber ich bin mir hier ziemlich sicher.

2 „Gefällt mir“

Erforderliche Änderungen gemäß

2 „Gefällt mir“

Könnte es sein, dass ich irgendwo ein ‘no index’ für Beitragsseiten habe? Auch wenn Google sagt, dass sie das jetzt ignorieren.

Sofern Sie kein Plugin installiert haben, um dies hinzuzufügen, kann ich mir keine Möglichkeit vorstellen, wie ein solcher Header hinzugefügt werden könnte. Google ignoriert den noindex-Header nicht. Google ignoriert die robots.txt-Datei, wenn andere Seiten auf Ihre Seite verweisen. Google beachtet sie jedoch beim Crawling, weshalb der oben genannte Commit die Einträge in der robots.txt-Datei zugunsten der zuvor hinzugefügten noindex-Header entfernt. Ich empfehle Ihnen, sich für die Google Search Console anzumelden, damit Sie selbst überprüfen können, was Google sieht. Vielleicht gibt es ein anderes Problem, das verhindert, dass die Themen angezeigt werden.

1 „Gefällt mir“

Danke, Joshua. Die Google Search Console scheint zufrieden zu sein und besagt, dass alle Threads aufgelistet sind. Sehr seltsam: Wenn ich nach ihnen suche, werden die Thread-Seiten nicht angezeigt, aber die Startseite und die Kategorie-Seiten schon.

1 „Gefällt mir“

Ich werde dies rückgängig machen und diese Bedingung explizit für Googlebot festlegen.

Googlebot ist ein sehr intelligenter Crawler, aber viele andere Crawler sind nicht so intelligent.

2 „Gefällt mir“

Alles klar. Beachte bitte, dass auch ein späterer Commit zurückgenommen werden muss.

1 „Gefällt mir“

Ich habe diesen PR erstellt, um dies zu lösen:

Google behält seine spezielle Regel, und wir liefern mit einem besseren Schutz für verschiedene Bots, die nicht so ausgefeilt sind. Die Standard-robots.txt sieht nun wie folgt aus:

# Siehe http://www.robotstxt.org/robotstxt.html für Dokumentation zur Verwendung der robots.txt-Datei
#
User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /


User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tags
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /tags/*.rss
Disallow: /c/*.rss


User-agent: Googlebot
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*

4 „Gefällt mir“