Les règles génériques dans "robots.txt" ne sont pas prises en compte par Googlebot

amotl · Mars 1, 2022, 2:07

Cher équipe Discourse,

Tout d’abord, nous tenons à vous féliciter pour l’esprit et l’endurance dont vous faites preuve dans la conception et la maintenance de Discourse. C’est toujours un plaisir de l’utiliser pour nous et les membres de notre communauté.

Nous avons résumé quelques observations mineures faites aujourd’hui et espérons qu’elles vous seront utiles. D’autre part, nous serions également heureux d’avoir votre retour sur d’éventuels malentendus de notre part.

Cordialement,
Andreas.

Introduction

En étudiant le comportement de notre instance Discourse hébergée à l’adresse https://community.crate.io/ concernant son fichier de définition robots.txt [^1], nous avons découvert que Googlebot pourrait ne pas respecter les paramètres comme prévu.

Évaluation

Exercisons-le au nom du robots.txt sur Meta [^2], avec l’URL de mon profil https://meta.discourse.org/u/amotl/.

La différence peut être rapidement repérée en comparant les résultats de ce validateur robots.txt gratuit :

– Évaluer avec Googlebot

– Évaluer avec MSNBot

Recherche

Sur ce sujet précis, nous pensons avoir déjà trouvé la réponse :

Réflexions

Nous sommes donc enclins à penser que Googlebot ignore actuellement complètement les règles définies dans la section User-agent: * [^3] et ne respecte que les règles de la section User-agent: Googlebot [^4].

[^1] : https://community.crate.io/robots.txt
[^2] : https://meta.discourse.org/robots.txt
[^3] : robots.txt, section User-agent: *
User-agent: * Disallow: /admin/ Disallow: /auth/ Disallow: /assets/browser-update*.js Disallow: /email/ Disallow: /session Disallow: /user-api-key Disallow: /*?api_key* Disallow: /*?*api_key* Disallow: /badges Disallow: /u Disallow: /my Disallow: /search Disallow: /tag Disallow: /g Disallow: /t/*/*.rss Disallow: /c/*.rss
[^4] : robots.txt, section User-agent: Googlebot
User-agent: Googlebot Disallow: /auth/ Disallow: /assets/browser-update*.js Disallow: /email/ Disallow: /session Disallow: /*?api_key* Disallow: /*?*api_key*

Jagster · Mars 1, 2022, 2:13

Si j’ai bien compris, la réponse n’est pas si simple. Si un utilisateur unique a envoyé un lien en utilisant Gmail, googlebot ne respecte pas robots.txt. Même chose si un lien est partagé quelque part (backlinks) où cela ressemble à un lien normal pour googlebot.

Encore une fois — robots.txt n’est qu’une requête.

Il y a une autre façon, mais plus… Beaucoup de bots s’identifient comme googlebot et la réalité ne peut être trouvée que via l’adresse IP.

rrit · Mars 1, 2022, 3:43

C’est correct et intentionnellement implémenté de cette façon.

Par conséquent, Googlebot reçoit un en-tête http supplémentaire X-Robots-Tag: noindex pour les pages qui ne devraient vraiment pas être indexées. Voir :

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

committed 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

Pour vos propres domaines, vous pouvez utiliser Google Search Console → Inspecter l’URL

Essayez ensuite d’ajouter une URL de profil utilisateur à indexer – par exemple, https://www.example.com/u/jacob

amotl · Mars 1, 2022, 3:50

Cher Ayke,

Confirmé.

$ http https://meta.discourse.org/u/amotl --print hH | grep -i robot
X-Robots-Tag: noindex

Merci beaucoup pour votre réponse rapide, votre explication et pour avoir référencé le correctif correspondant.

Cordialement,
Andreas.

sam · Mars 2, 2022, 10:11

J’ai déplacé ceci dans Support, merci pour votre rapport de bug délicieusement écrit ici.

Cela nous a pris beaucoup de temps pour affiner nos règles afin de satisfaire Google, la balise x-robots-tag noindex est prise en charge de manière inégale mais c’est une norme de l’industrie. Le problème avec le simple blocage de l’exploration était que, pour une raison quelconque, dans certaines conditions, les pages pouvaient se retrouver dans l’index de Google et il n’y avait alors aucun moyen facile de les supprimer car l’exploration était bloquée, un peu un problème d’œuf et de poule.

amotl · Mars 3, 2022, 8:45

Cher Sam,

Merci beaucoup de partager plus de détails sur cette question. Comme toujours, je suis stupéfait par le niveau de génialité que vous mettez dans chaque détail de Discourse.

Je dois admettre que je n’étais pas au courant de cela jusqu’à présent. Donc, merci encore !

Génial. Merci. Si cela est devenu une norme largement acceptée maintenant, y aura-t-il un espoir que certains des validateurs robots.txt gratuits commencent également à le respecter à l’avenir ?

Êtes-vous au courant de certains qui implémentent déjà des vérifications d’en-tête supplémentaires correspondantes en plus de la lecture du robots.txt aujourd’hui, comme le fait l’outil Inspect URL de Google Search Console ? Cela aiderait probablement les gens à éviter la même confusion que nous avons rencontrée.

Cordialement,
Andreas.

system · Avril 2, 2022, 8:46

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

Sujet		Réponses	Vues
Pages listed in the robots.txt are crawled and indexed by Google Support	19	3277	Juillet 30, 2019
Excluding user profiles in robots.txt (or allow edit of file) Feature	5	2501	Mai 24, 2014
Google changed how they process robots.txt in Discourse? Support	20	1684	Décembre 22, 2020
Malformed robots.txt causing issues with indexing Support	9	1848	Avril 21, 2023
Indexing User Profiles Support	2	65	Septembre 4, 2025

Les règles génériques dans "robots.txt" ne sont pas prises en compte par Googlebot

Introduction

Évaluation

Recherche

Réflexions

Sujets connexes