Google a-t-il modifié la façon dont il traite robots.txt dans Discourse ?

jackjjw · Mai 11, 2020, 3:37

Mon forum est lié à partir de mon site depuis quelques semaines et j’ai soumis l’URL à Google. J’ai reçu un avertissement de type « no index », mais il semble concerner les pages de profil, ce qui est une bonne nouvelle.

Cependant, rien n’apparaît encore dans Google. Y a-t-il une action à mener côté forum, ou s’agit-il simplement d’attendre que Google le scanne ?

satonotdead · Mai 11, 2020, 4:30

Vous pouvez peut-être essayer https://search.google.com/search-console/ ?

jackjjw · Mai 12, 2020, 7:00

Il semble que les pages de publication soient bloquées par robots.txt, mais ce n’est pas quelque chose que j’ai fait. Y a-t-il un paramètre dans Discourse que je dois modifier pour le débloquer ? Merci.

sam · Mai 12, 2020, 7:11

Il existe un paramètre du site. Recherchez allow index in robots txt dans vos paramètres de site ; il doit être activé (il est activé par défaut).

jackjjw · Mai 12, 2020, 7:13

Merci Sam, ce paramètre est bien coché, c’est bien ça ?

Désolé, je m’embrouille, il semble que les URL bloquées correspondent aux équivalents des flux RSS.

Je suppose qu’il faut simplement attendre que Google mette à jour ou recrawle le site, alors.

sam · Mai 12, 2020, 7:22

Oui, cela continue de se répéter et cause régulièrement des problèmes de support.

Googlebot est un peu ennuyeux. Vous ne pouvez pas lui indiquer dans robots.txt que vous ne souhaitez pas qu’un élément soit indexé. Nous travaillons sur une correction pour apaiser Googlebot, mais cela prendra un certain temps avant d’être déployé.

Nous disons à Googlebot dans robots.txt : « Hé… ne vous amusez pas à indexer toutes les pages .rss du site »
Googlebot trouve un lien quelque part vers un fichier .rss sur le site
Googlebot se plaint ensuite aux administrateurs du site qu’un fichier .rss existe sur le site, mais il ne parvient pas à déterminer quoi faire du lien car il n’est pas autorisé à l’indexer. Il inclut parfois même ce contenu dans les résultats de recherche.
Les administrateurs du site se plaignent ensuite sur Meta

Notre correction générale consiste simplement à permettre à Googlebot de parcourir chaque page du site et d’utiliser les balises canoniques et les indices d’indexation dans les en-têtes HTTP pour le diriger vers la réussite.

Je travaille sur ce sujet avec @jomaxro et nous avons déjà réalisé de bons progrès.

(pour info @codinghorror)

jackjjw · Mai 12, 2020, 7:29

Merci pour la mise à jour, Sam, tout cela a du sens et je comprends ta situation. Je ne suis pas expert en SEO, mais j’ai géré de plus grands sites web et travaillé avec des équipes SEO ; sur les forums, c’était souvent très délicat !

jomaxro · Mai 12, 2020, 4:59

Pour être clair, cela n’a rien à voir avec le fait d’être un forum de discussion. Cela est lié à la manière… intéressante… dont Google traite le fichier robots.txt. Voir Robots.txt Introduction and Guide | Google Search Central | Documentation | Google for Developers

Une page bloquée par robots.txt peut tout de même être indexée si elle est liée depuis d’autres sites
Bien que Google ne crawl ni n’indexe le contenu bloqué par robots.txt, nous pouvons tout de même découvrir et indexer une URL interdite si elle est liée depuis d’autres endroits du web. Par conséquent, l’adresse de l’URL et, potentiellement, d’autres informations accessibles au public, telles que le texte d’ancrage des liens pointant vers la page, peuvent toujours apparaître dans les résultats de recherche Google. Pour empêcher correctement votre URL d’apparaître dans les résultats de recherche Google, vous devez protéger les fichiers de votre serveur par mot de passe ou utiliser la balise meta noindex ou l’en-tête de réponse (ou supprimer complètement la page).

Nous incluons depuis longtemps dans le fichier robots.txt par défaut de chaque site Discourse les pages que nous ne souhaitons pas indexer. Cela fonctionnait parfaitement jusqu’à présent. À un moment inconnu du passé, cela ne suffisait plus : Google a décidé d’indexer les pages liées depuis d’autres endroits, même si elles étaient interdites via robots.txt.

Ainsi, plus tôt cette année, nous avons commencé à tester l’ajout d’en-têtes noindex sur certaines pages. Cela aurait fonctionné parfaitement, sauf que nous nous retrouvons maintenant avec un conflit entre robots.txt et l’en-tête. Voir Block Search Indexing with noindex | Google Search Central | Documentation | Google for Developers

Important ! Pour que la directive noindex soit efficace, la page ne doit pas être bloquée par un fichier robots.txt. Si la page est bloquée par un fichier robots.txt, le robot d’exploration ne verra jamais la directive noindex, et la page peut toujours apparaître dans les résultats de recherche, par exemple si d’autres pages y font référence.

Ce qui nous amène à aujourd’hui. Nous testons la suppression de certaines pages du fichier robots.txt. Nous devons être prudents, car nous effectuons tous ces changements en nous basant sur la documentation de Google, nous savons donc que cela conviendra à Googlebot, mais nous devons également vérifier les autres robots d’exploration majeurs pour nous assurer de ne pas créer de problèmes de leur côté.

codinghorror · Mai 13, 2020, 7:04

Citation à titre d’accentuation. Google a modifié son comportement ici, pas nous, donc il faudra un peu de temps pour s’adapter.

jackjjw · Juin 25, 2020, 1:28

Bonjour Jeff, tout cela a du sens pour moi et je comprends. Je voulais simplement vérifier si je n’avais pas fait quelque chose pour masquer les pages de discussion dans mon paramétrage Google ? La page d’accueil principale et les catégories apparaissent dans Google, mais aucune des pages de discussion, cela fait maintenant quelques mois. Voici mon site : https://community.jackwallington.com/

codinghorror · Juin 25, 2020, 5:20

Je pense que nous avons apporté toutes les modifications nécessaires de notre côté pour nous adapter aux récents changements de comportement de Google… peut-être que @jomaxro peut confirmer ? Vous devrez utiliser la dernière version de Discourse.

jomaxro · Juin 25, 2020, 5:27

Je ne suis pas certain, je devrai vérifier. Je crois que nous avons apporté quelques modifications manuelles au robots.txt (sur Meta uniquement) pendant les tests…

jomaxro · Juin 25, 2020, 5:32

En regardant discourse/app/controllers/robots_txt_controller.rb at main · discourse/discourse · GitHub, il semble que les modifications soient locales (Meta uniquement). Je vais corriger cela. Nous avons encore quelques tests de longue durée en cours, mais je suis assez confiant ici.

jomaxro · Juin 25, 2020, 7:15

Modifications nécessaires effectuées conformément à

github.com/discourse/discourse

FIX: Remove paths from robots.txt in favor of noindex header

committed 05:55PM - 25 Jun 20 UTC

jomaxro

+0 -13

Google no longer supports the use of robots.txt to block indexing. See https://s…upport.google.com/webmasters/answer/6062608 and https://support.google.com/webmasters/answer/93710 Previous commits have added the `noindex` header to appropriate pages, now we need to remove the paths from robots.txt so the pages can be crawled. Follow up to: 13f229808a22db9e1032832a313ab701b66614c8 b6765aac4b532c026418a7ffd9effd0741ab8a37 676be3a853454a33cf627c3d570feb37d3bb0bfd 07b728c5e557c9aae91c51f3eaac5c32d479f2a2 c94e6a9a66757ea48d99e3ee8d880523871cb6f4

jackjjw · Juin 25, 2020, 7:31

Serait-il possible que j’aie un no index quelque part pour les pages de publication ? Même si Google dit qu’il l’ignore désormais.

jomaxro · Juin 25, 2020, 7:40

À moins que vous n’ayez installé un plugin pour ajouter cela, je ne vois pas comment un tel en-tête pourrait être ajouté. Google n’ignore pas l’en-tête noindex. Google ignore le fichier robots.txt lorsque d’autres sites pointent vers votre page. Google le respecte en revanche lors du crawl, c’est pourquoi le commit ci-dessus supprime les entrées du fichier robots.txt en faveur des en-têtes noindex ajoutés précédemment.

Je vous suggère de vous inscrire à la Google Search Console afin de voir vous-même ce que Google détecte. Peut-être y a-t-il un autre problème empêchant les sujets d’être vus.

jackjjw · Juin 25, 2020, 7:54

Merci Joshua, Google Search Console semble satisfaite et indique que tous les fils de discussion sont répertoriés. C’est très étrange : lorsque je les recherche, les pages de fils de discussion n’apparaissent pas, mais les pages d’accueil et de catégories, si.

sam · Décembre 22, 2020, 5:17

Je vais annuler cela et rendre cette condition explicite pour Googlebot.

Googlebot est un robot d’indexation très intelligent, mais de nombreux autres robots ne le sont pas autant.

jomaxro · Décembre 22, 2020, 5:22

C’est juste. Notez qu’il y a aussi un commit ultérieur à annuler.

sam · Décembre 22, 2020, 6:01

J’ai créé cette PR pour résoudre ce problème :

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

master ← crawl-less

merged 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

Google conserve sa règle spéciale et nous livrons une meilleure protection pour divers robots moins sophistiqués. Le fichier robots par défaut ressemble maintenant à ceci :

# Voir http://www.robotstxt.org/robotstxt.html pour la documentation sur l'utilisation du fichier robots.txt
#
User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /


User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tags
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /tags/*.rss
Disallow: /c/*.rss


User-agent: Googlebot
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*

Sujet		Réponses	Vues
Pages listed in the robots.txt are crawled and indexed by Google Support	19	3353	Juillet 30, 2019
Google notification to remove "noindex" statements from robots.txt Support	8	2480	Juillet 30, 2019
Google complaining – Indexed, though blocked by robots.txt Support	24	2584	Septembre 28, 2023
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	252	Décembre 18, 2024
Generic rules in "robots.txt" not picked up by Googlebot Support	6	1028	Avril 2, 2022

Google a-t-il modifié la façon dont il traite robots.txt dans Discourse ?

Sujets connexes