Hat Google die Verarbeitung von robots.txt in Discourse geändert?

jackjjw · 11. Mai 2020 um 15:37

Meine Board-Seite ist seit einigen Wochen mit meiner Website verknüpft, und ich habe die URL bei Google eingereicht. Ich erhielt eine Warnung bezüglich „no index“, die sich jedoch nur auf Profilseiten bezog, was gut ist.

Dennoch erscheint noch nichts in Google. Muss ich auf der Board-Seite noch etwas tun, oder muss ich einfach nur abwarten, bis Google die Seite nun crawlt?

satonotdead · 11. Mai 2020 um 16:30

Vielleicht können Sie es mit https://search.google.com/search-console/ versuchen?

jackjjw · 12. Mai 2020 um 07:00

Es scheint, als würden die Roboter-Dateien die Beitragsseiten blockieren, aber das habe ich nicht eingerichtet. Gibt es eine Einstellung in Discourse, die ich ändern muss, um den Zugang zu ermöglichen? Vielen Dank.

sam · 12. Mai 2020 um 07:11

Es gibt eine Site-Einstellung. Suche in deinen Site-Einstellungen nach allow index in robots txt. Sie sollte aktiviert sein (standardmäßig ist sie aktiviert).

jackjjw · 12. Mai 2020 um 07:13

Danke, Sam. Diese Einstellung ist aktiviert, ist das richtig so?

Entschuldigung, ich verwechsle das gerade. Es sieht so aus, als wären die blockierten URLs die RSS-Feed-Äquivalente.

Ich vermute, es ist einfach eine Frage des Wartens, bis Google die Seite aktualisiert oder neu durchsucht.

sam · 12. Mai 2020 um 07:22

Ja, das wiederholt sich ständig und führt zu Supportanfragen.

Googlebot ist etwas lästig. Man kann ihm in der robots.txt nicht mitteilen, dass etwas nicht indexiert werden soll. Wir arbeiten an einer Lösung, um Googlebot zufriedenzustellen, aber es wird einige Zeit dauern, bis sie ausgerollt ist.

Wir sagen Googlebot in der robots.txt: „Hey … geh nicht herum und indexiere alle .rss-Seiten auf der Website"
Googlebot findet irgendwo einen Link zu einer .rss-Datei auf der Website
Googlebot beschwert sich dann bei den Seitenbetreibern, dass es eine .rss-Datei auf der Website gibt, kann aber nicht herausfinden, was mit dem Link zu tun ist, da es nicht erlaubt ist, ihn zu indexieren. Manchmal fügt es diesen Inhalt sogar in die Suchergebnisse ein.
Die Seitenbetreiber beschweren sich dann im Meta-Bereich

Unsere allgemeine Lösung hier ist einfach, Googlebot jede Seite der Website durchsuchen zu lassen und mit Canonical-Tags und Indexierungshinweisen in den HTTP-Headern den Weg zum Erfolg zu weisen.

Ich arbeite mit @jomaxro daran und wir haben bereits gute Fortschritte gemacht.

(fyi @codinghorror)

jackjjw · 12. Mai 2020 um 07:29

Danke für das Update, Sam. Das ergibt alles Sinn, und ich kann deinen Schmerz nachvollziehen. Ich bin zwar kein SEO-Experte, aber ich habe früher größere Websites geleitet und mit SEO-Teams zusammengearbeitet. In Foren war das oft sehr knifflig!

jomaxro · 12. Mai 2020 um 16:59

Um Missverständnisse auszuschließen: Dies hat nichts mit der Tatsache zu tun, dass es sich um ein Diskussionsforum handelt. Es geht um die … interessante … Art und Weise, wie Google mit robots.txt umgeht. Siehe Robots.txt Introduction and Guide | Google Search Central | Documentation | Google for Developers

Eine durch robots.txt gesperrte Seite kann dennoch indiziert werden, wenn sie von anderen Websites verlinkt wird
Obwohl Google den Inhalt, der durch robots.txt blockiert wird, nicht crawlt oder indiziert, können wir eine gesperrte URL dennoch finden und indizieren, wenn sie von anderen Stellen im Web verlinkt wird. Folglich können die URL-Adresse und potenziell andere öffentlich verfügbare Informationen, wie z. B. Ankertexte in Links zur Seite, weiterhin in den Google-Suchergebnissen erscheinen. Um sicherzustellen, dass Ihre URL nicht in den Google-Suchergebnissen angezeigt wird, sollten Sie die Dateien auf Ihrem Server passwortgeschützt machen oder das Meta-Tag noindex oder den Response-Header verwenden (oder die Seite vollständig entfernen).

Wir haben Seiten, die wir nicht indiziert haben möchten, seit langem in die standardmäßige robots.txt-Datei jedes Discourse-Standsorts aufgenommen. Dies funktionierte bisher einwandfrei. Zu einem unbekannten Zeitpunkt in der Vergangenheit reichte dies jedoch nicht mehr aus; Google entschied sich, Seiten zu indizieren, die von anderen Orten aus verlinkt wurden, selbst wenn sie über robots.txt gesperrt waren.

Deshalb haben wir Anfang dieses Jahres mit dem Testen von noindex-Headern für bestimmte Seiten begonnen. Das hätte hervorragend funktioniert, gäbe es nicht einen Konflikt zwischen robots.txt und dem Header. Siehe Block Search Indexing with noindex | Google Search Central | Documentation | Google for Developers

Wichtig! Damit die Direktive noindex wirksam ist, darf die Seite nicht durch eine robots.txt-Datei blockiert sein. Ist die Seite durch robots.txt blockiert, wird der Crawler die Direktive noindex niemals sehen, und die Seite kann dennoch in den Suchergebnissen erscheinen, beispielsweise wenn andere Seiten auf sie verlinken.

Das führt uns zu heute. Wir testen das Entfernen bestimmter Seiten aus der robots.txt. Wir müssen vorsichtig sein, da wir all diese Änderungen basierend auf der Google-Dokumentation vornehmen. Wir wissen also, dass wir mit Googlebot kompatibel sind, müssen aber auch andere wichtige Crawler überprüfen, um sicherzustellen, dass wir dort keine Probleme verursachen.

codinghorror · 13. Mai 2020 um 07:04

Zitiert zur Betonung. Google hat hier das Verhalten geändert, nicht wir, daher wird es etwas Zeit brauchen, sich anzupassen.

jackjjw · 25. Juni 2020 um 13:28

Hallo Jeff, das ergibt für mich alles Sinn und ich habe es verstanden. Ich wollte nur sichergehen, dass ich nicht versehentlich etwas getan habe, wodurch die Thread-Seiten in meiner Google-Einstellung ausgeblendet wurden? Die Haupt-Startseite und die Kategorien werden in Google angezeigt, aber keine der Thread-Seiten, das ist schon ein paar Monate her. Hier ist meine Seite: https://community.jackwallington.com/

codinghorror · 25. Juni 2020 um 17:20

Ich glaube, wir haben auf unserer Seite alle notwendigen Anpassungen vorgenommen, um die kürzlichen Änderungen im Verhalten von Google zu berücksichtigen. Vielleicht kann @jomaxro das bestätigen? Sie sollten die neueste Version von Discourse verwenden.

jomaxro · 25. Juni 2020 um 17:27

Ich bin mir nicht sicher, muss das noch prüfen. Ich glaube, wir haben während der Tests einige manuelle Änderungen an der robots.txt vorgenommen (nur bei Meta).

jomaxro · 25. Juni 2020 um 17:32

Wenn man sich discourse/app/controllers/robots_txt_controller.rb at main · discourse/discourse · GitHub ansieht, scheinen die Änderungen lokal zu sein (nur Meta). Ich werde das beheben. Wir haben noch ein paar langlaufende Tests, aber ich bin mir hier ziemlich sicher.

jomaxro · 25. Juni 2020 um 19:15

Erforderliche Änderungen gemäß

github.com/discourse/discourse

FIX: Remove paths from robots.txt in favor of noindex header

committed 05:55PM - 25 Jun 20 UTC

jomaxro

+0 -13

Google no longer supports the use of robots.txt to block indexing. See https://s…upport.google.com/webmasters/answer/6062608 and https://support.google.com/webmasters/answer/93710 Previous commits have added the `noindex` header to appropriate pages, now we need to remove the paths from robots.txt so the pages can be crawled. Follow up to: 13f229808a22db9e1032832a313ab701b66614c8 b6765aac4b532c026418a7ffd9effd0741ab8a37 676be3a853454a33cf627c3d570feb37d3bb0bfd 07b728c5e557c9aae91c51f3eaac5c32d479f2a2 c94e6a9a66757ea48d99e3ee8d880523871cb6f4

jackjjw · 25. Juni 2020 um 19:31

Könnte es sein, dass ich irgendwo ein ‘no index’ für Beitragsseiten habe? Auch wenn Google sagt, dass sie das jetzt ignorieren.

jomaxro · 25. Juni 2020 um 19:40

Sofern Sie kein Plugin installiert haben, um dies hinzuzufügen, kann ich mir keine Möglichkeit vorstellen, wie ein solcher Header hinzugefügt werden könnte. Google ignoriert den noindex-Header nicht. Google ignoriert die robots.txt-Datei, wenn andere Seiten auf Ihre Seite verweisen. Google beachtet sie jedoch beim Crawling, weshalb der oben genannte Commit die Einträge in der robots.txt-Datei zugunsten der zuvor hinzugefügten noindex-Header entfernt. Ich empfehle Ihnen, sich für die Google Search Console anzumelden, damit Sie selbst überprüfen können, was Google sieht. Vielleicht gibt es ein anderes Problem, das verhindert, dass die Themen angezeigt werden.

jackjjw · 25. Juni 2020 um 19:54

Danke, Joshua. Die Google Search Console scheint zufrieden zu sein und besagt, dass alle Threads aufgelistet sind. Sehr seltsam: Wenn ich nach ihnen suche, werden die Thread-Seiten nicht angezeigt, aber die Startseite und die Kategorie-Seiten schon.

sam · 22. Dezember 2020 um 05:17

Ich werde dies rückgängig machen und diese Bedingung explizit für Googlebot festlegen.

Googlebot ist ein sehr intelligenter Crawler, aber viele andere Crawler sind nicht so intelligent.

jomaxro · 22. Dezember 2020 um 05:22

Alles klar. Beachte bitte, dass auch ein späterer Commit zurückgenommen werden muss.

sam · 22. Dezember 2020 um 06:01

Ich habe diesen PR erstellt, um dies zu lösen:

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

master ← crawl-less

merged 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

Google behält seine spezielle Regel, und wir liefern mit einem besseren Schutz für verschiedene Bots, die nicht so ausgefeilt sind. Die Standard-robots.txt sieht nun wie folgt aus:

# Siehe http://www.robotstxt.org/robotstxt.html für Dokumentation zur Verwendung der robots.txt-Datei
#
User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /


User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tags
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /tags/*.rss
Disallow: /c/*.rss


User-agent: Googlebot
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*

Thema		Antworten	Aufrufe
Pages listed in the robots.txt are crawled and indexed by Google Support	19	3355	30. Juli 2019
Google notification to remove "noindex" statements from robots.txt Support	8	2480	30. Juli 2019
Google complaining – Indexed, though blocked by robots.txt Support	24	2584	28. September 2023
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	253	18. Dezember 2024
Generic rules in "robots.txt" not picked up by Googlebot Support	6	1028	2. April 2022

Hat Google die Verarbeitung von robots.txt in Discourse geändert?

Verwandte Themen