Les règles génériques dans "robots.txt" ne sont pas prises en compte par Googlebot

Cher équipe Discourse,

Tout d’abord, nous tenons à vous féliciter pour l’esprit et l’endurance dont vous faites preuve dans la conception et la maintenance de Discourse. C’est toujours un plaisir de l’utiliser pour nous et les membres de notre communauté.

Nous avons résumé quelques observations mineures faites aujourd’hui et espérons qu’elles vous seront utiles. D’autre part, nous serions également heureux d’avoir votre retour sur d’éventuels malentendus de notre part.

Cordialement,
Andreas.


Introduction

En étudiant le comportement de notre instance Discourse hébergée à l’adresse https://community.crate.io/ concernant son fichier de définition robots.txt [^1], nous avons découvert que Googlebot pourrait ne pas respecter les paramètres comme prévu.

Évaluation

Exercisons-le au nom du robots.txt sur Meta [^2], avec l’URL de mon profil https://meta.discourse.org/u/amotl/.

La différence peut être rapidement repérée en comparant les résultats de ce validateur robots.txt gratuit :


Évaluer avec Googlebot


Évaluer avec MSNBot

Recherche

Sur ce sujet précis, nous pensons avoir déjà trouvé la réponse :

Réflexions

Nous sommes donc enclins à penser que Googlebot ignore actuellement complètement les règles définies dans la section User-agent: * [^3] et ne respecte que les règles de la section User-agent: Googlebot [^4].

[^1] : https://community.crate.io/robots.txt
[^2] : https://meta.discourse.org/robots.txt
[^3] : robots.txt, section User-agent: *
User-agent: * Disallow: /admin/ Disallow: /auth/ Disallow: /assets/browser-update*.js Disallow: /email/ Disallow: /session Disallow: /user-api-key Disallow: /*?api_key* Disallow: /*?*api_key* Disallow: /badges Disallow: /u Disallow: /my Disallow: /search Disallow: /tag Disallow: /g Disallow: /t/*/*.rss Disallow: /c/*.rss
[^4] : robots.txt, section User-agent: Googlebot
User-agent: Googlebot Disallow: /auth/ Disallow: /assets/browser-update*.js Disallow: /email/ Disallow: /session Disallow: /*?api_key* Disallow: /*?*api_key*

4 « J'aime »

Si j’ai bien compris, la réponse n’est pas si simple. Si un utilisateur unique a envoyé un lien en utilisant Gmail, googlebot ne respecte pas robots.txt. Même chose si un lien est partagé quelque part (backlinks) où cela ressemble à un lien normal pour googlebot.

Encore une fois — robots.txt n’est qu’une requête.

Il y a une autre façon, mais plus… Beaucoup de bots s’identifient comme googlebot et la réalité ne peut être trouvée que via l’adresse IP.

3 « J'aime »

C’est correct et intentionnellement implémenté de cette façon.

Par conséquent, Googlebot reçoit un en-tête http supplémentaire X-Robots-Tag: noindex pour les pages qui ne devraient vraiment pas être indexées. Voir :


Pour vos propres domaines, vous pouvez utiliser Google Search Console → Inspecter l’URL

Essayez ensuite d’ajouter une URL de profil utilisateur à indexer – par exemple, https://www.example.com/u/jacob

4 « J'aime »

Cher Ayke,

Confirmé.

$ http https://meta.discourse.org/u/amotl --print hH | grep -i robot
X-Robots-Tag: noindex

Merci beaucoup pour votre réponse rapide, votre explication et pour avoir référencé le correctif correspondant.

Cordialement,
Andreas.

2 « J'aime »

J’ai déplacé ceci dans Support, merci pour votre rapport de bug délicieusement écrit ici.

Cela nous a pris beaucoup de temps pour affiner nos règles afin de satisfaire Google, la balise x-robots-tag noindex est prise en charge de manière inégale mais c’est une norme de l’industrie. Le problème avec le simple blocage de l’exploration était que, pour une raison quelconque, dans certaines conditions, les pages pouvaient se retrouver dans l’index de Google et il n’y avait alors aucun moyen facile de les supprimer car l’exploration était bloquée, un peu un problème d’œuf et de poule.

4 « J'aime »

Cher Sam,

Merci beaucoup de partager plus de détails sur cette question. Comme toujours, je suis stupéfait par le niveau de génialité que vous mettez dans chaque détail de Discourse.

Je dois admettre que je n’étais pas au courant de cela jusqu’à présent. Donc, merci encore !

image

Génial. Merci. Si cela est devenu une norme largement acceptée maintenant, y aura-t-il un espoir que certains des validateurs robots.txt gratuits commencent également à le respecter à l’avenir ?

Êtes-vous au courant de certains qui implémentent déjà des vérifications d’en-tête supplémentaires correspondantes en plus de la lecture du robots.txt aujourd’hui, comme le fait l’outil Inspect URL de Google Search Console ? Cela aiderait probablement les gens à éviter la même confusion que nous avons rencontrée.

Cordialement,
Andreas.

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.