Tout d’abord, nous tenons à vous féliciter pour l’esprit et l’endurance dont vous faites preuve dans la conception et la maintenance de Discourse. C’est toujours un plaisir de l’utiliser pour nous et les membres de notre communauté.
Nous avons résumé quelques observations mineures faites aujourd’hui et espérons qu’elles vous seront utiles. D’autre part, nous serions également heureux d’avoir votre retour sur d’éventuels malentendus de notre part.
Cordialement,
Andreas.
Introduction
En étudiant le comportement de notre instance Discourse hébergée à l’adresse https://community.crate.io/ concernant son fichier de définition robots.txt [^1], nous avons découvert que Googlebot pourrait ne pas respecter les paramètres comme prévu.
Évaluation
Exercisons-le au nom du robots.txt sur Meta [^2], avec l’URL de mon profil https://meta.discourse.org/u/amotl/.
La différence peut être rapidement repérée en comparant les résultats de ce validateur robots.txt gratuit :
Sur ce sujet précis, nous pensons avoir déjà trouvé la réponse :
Réflexions
Nous sommes donc enclins à penser que Googlebot ignore actuellement complètement les règles définies dans la section User-agent: * [^3] et ne respecte que les règles de la section User-agent: Googlebot [^4].
Si j’ai bien compris, la réponse n’est pas si simple. Si un utilisateur unique a envoyé un lien en utilisant Gmail, googlebot ne respecte pas robots.txt. Même chose si un lien est partagé quelque part (backlinks) où cela ressemble à un lien normal pour googlebot.
Encore une fois — robots.txt n’est qu’une requête.
Il y a une autre façon, mais plus… Beaucoup de bots s’identifient comme googlebot et la réalité ne peut être trouvée que via l’adresse IP.
C’est correct et intentionnellement implémenté de cette façon.
Par conséquent, Googlebot reçoit un en-tête http supplémentaire X-Robots-Tag: noindex pour les pages qui ne devraient vraiment pas être indexées. Voir :
Pour vos propres domaines, vous pouvez utiliser Google Search Console → Inspecter l’URL
Essayez ensuite d’ajouter une URL de profil utilisateur à indexer – par exemple, https://www.example.com/u/jacob
J’ai déplacé ceci dans Support, merci pour votre rapport de bug délicieusement écrit ici.
Cela nous a pris beaucoup de temps pour affiner nos règles afin de satisfaire Google, la balise x-robots-tag noindex est prise en charge de manière inégale mais c’est une norme de l’industrie. Le problème avec le simple blocage de l’exploration était que, pour une raison quelconque, dans certaines conditions, les pages pouvaient se retrouver dans l’index de Google et il n’y avait alors aucun moyen facile de les supprimer car l’exploration était bloquée, un peu un problème d’œuf et de poule.
Merci beaucoup de partager plus de détails sur cette question. Comme toujours, je suis stupéfait par le niveau de génialité que vous mettez dans chaque détail de Discourse.
Je dois admettre que je n’étais pas au courant de cela jusqu’à présent. Donc, merci encore !
Génial. Merci. Si cela est devenu une norme largement acceptée maintenant, y aura-t-il un espoir que certains des validateurs robots.txt gratuits commencent également à le respecter à l’avenir ?
Êtes-vous au courant de certains qui implémentent déjà des vérifications d’en-tête supplémentaires correspondantes en plus de la lecture du robots.txtaujourd’hui, comme le fait l’outil Inspect URL de Google Search Console ? Cela aiderait probablement les gens à éviter la même confusion que nous avons rencontrée.