Mon forum est lié à partir de mon site depuis quelques semaines et j’ai soumis l’URL à Google. J’ai reçu un avertissement de type « no index », mais il semble concerner les pages de profil, ce qui est une bonne nouvelle.
Cependant, rien n’apparaît encore dans Google. Y a-t-il une action à mener côté forum, ou s’agit-il simplement d’attendre que Google le scanne ?
Il semble que les pages de publication soient bloquées par robots.txt, mais ce n’est pas quelque chose que j’ai fait. Y a-t-il un paramètre dans Discourse que je dois modifier pour le débloquer ? Merci.
Oui, cela continue de se répéter et cause régulièrement des problèmes de support.
Googlebot est un peu ennuyeux. Vous ne pouvez pas lui indiquer dans robots.txt que vous ne souhaitez pas qu’un élément soit indexé. Nous travaillons sur une correction pour apaiser Googlebot, mais cela prendra un certain temps avant d’être déployé.
Nous disons à Googlebot dans robots.txt : « Hé… ne vous amusez pas à indexer toutes les pages .rss du site »
Googlebot trouve un lien quelque part vers un fichier .rss sur le site
Googlebot se plaint ensuite aux administrateurs du site qu’un fichier .rss existe sur le site, mais il ne parvient pas à déterminer quoi faire du lien car il n’est pas autorisé à l’indexer. Il inclut parfois même ce contenu dans les résultats de recherche.
Les administrateurs du site se plaignent ensuite sur Meta
Notre correction générale consiste simplement à permettre à Googlebot de parcourir chaque page du site et d’utiliser les balises canoniques et les indices d’indexation dans les en-têtes HTTP pour le diriger vers la réussite.
Je travaille sur ce sujet avec @jomaxro et nous avons déjà réalisé de bons progrès.
Merci pour la mise à jour, Sam, tout cela a du sens et je comprends ta situation. Je ne suis pas expert en SEO, mais j’ai géré de plus grands sites web et travaillé avec des équipes SEO ; sur les forums, c’était souvent très délicat !
Une page bloquée par robots.txt peut tout de même être indexée si elle est liée depuis d’autres sites
Bien que Google ne crawl ni n’indexe le contenu bloqué par robots.txt, nous pouvons tout de même découvrir et indexer une URL interdite si elle est liée depuis d’autres endroits du web. Par conséquent, l’adresse de l’URL et, potentiellement, d’autres informations accessibles au public, telles que le texte d’ancrage des liens pointant vers la page, peuvent toujours apparaître dans les résultats de recherche Google. Pour empêcher correctement votre URL d’apparaître dans les résultats de recherche Google, vous devez protéger les fichiers de votre serveur par mot de passe ou utiliser la balise meta noindex ou l’en-tête de réponse (ou supprimer complètement la page).
Nous incluons depuis longtemps dans le fichier robots.txt par défaut de chaque site Discourse les pages que nous ne souhaitons pas indexer. Cela fonctionnait parfaitement jusqu’à présent. À un moment inconnu du passé, cela ne suffisait plus : Google a décidé d’indexer les pages liées depuis d’autres endroits, même si elles étaient interdites via robots.txt.
Important ! Pour que la directive noindex soit efficace, la page ne doit pas être bloquée par un fichier robots.txt. Si la page est bloquée par un fichier robots.txt, le robot d’exploration ne verra jamais la directive noindex, et la page peut toujours apparaître dans les résultats de recherche, par exemple si d’autres pages y font référence.
Ce qui nous amène à aujourd’hui. Nous testons la suppression de certaines pages du fichier robots.txt. Nous devons être prudents, car nous effectuons tous ces changements en nous basant sur la documentation de Google, nous savons donc que cela conviendra à Googlebot, mais nous devons également vérifier les autres robots d’exploration majeurs pour nous assurer de ne pas créer de problèmes de leur côté.
Bonjour Jeff, tout cela a du sens pour moi et je comprends. Je voulais simplement vérifier si je n’avais pas fait quelque chose pour masquer les pages de discussion dans mon paramétrage Google ? La page d’accueil principale et les catégories apparaissent dans Google, mais aucune des pages de discussion, cela fait maintenant quelques mois. Voici mon site : https://community.jackwallington.com/
Je pense que nous avons apporté toutes les modifications nécessaires de notre côté pour nous adapter aux récents changements de comportement de Google… peut-être que @jomaxro peut confirmer ? Vous devrez utiliser la dernière version de Discourse.
Je ne suis pas certain, je devrai vérifier. Je crois que nous avons apporté quelques modifications manuelles au robots.txt (sur Meta uniquement) pendant les tests…
À moins que vous n’ayez installé un plugin pour ajouter cela, je ne vois pas comment un tel en-tête pourrait être ajouté. Google n’ignore pas l’en-tête noindex. Google ignore le fichier robots.txt lorsque d’autres sites pointent vers votre page. Google le respecte en revanche lors du crawl, c’est pourquoi le commit ci-dessus supprime les entrées du fichier robots.txt en faveur des en-têtes noindex ajoutés précédemment.
Je vous suggère de vous inscrire à la Google Search Console afin de voir vous-même ce que Google détecte. Peut-être y a-t-il un autre problème empêchant les sujets d’être vus.
Merci Joshua, Google Search Console semble satisfaite et indique que tous les fils de discussion sont répertoriés. C’est très étrange : lorsque je les recherche, les pages de fils de discussion n’apparaissent pas, mais les pages d’accueil et de catégories, si.
Google conserve sa règle spéciale et nous livrons une meilleure protection pour divers robots moins sophistiqués. Le fichier robots par défaut ressemble maintenant à ceci :