Google indexe la même page plusieurs fois : problème avec les canonicals

Essayez de taper ceci dans Google :

site:forum.hearingtracker.com/t/costco-kirkland-signature-9-0-product-information/45380

Voici les résultats que vous verrez (48 résultats sur une seule page) :

Il s’agit d’un bug de contenu dupliqué et cela devrait être considéré comme un problème SEO urgent pour la plateforme Discourse (je utilise actuellement la version v2.4.0.beta3 +4).

J’ai essayé de comprendre pourquoi cela se produit et j’ai été surpris de constater que, lors de l’inspection du code source de la page, le lien canonique se met à jour au fur et à mesure que je fais défiler la page :

Exemple :
<link rel="canonical" href="https://forum.hearingtracker.com/t/costco-kirkland-signature-9-0-product-information/45380?page=2" />

Donc, je suppose que la logique ici est que les longs fils de discussion sont paginés, mais comme il s’agit d’une SPA à chargement différé, les liens canoniques se comportent comme si une pagination traditionnelle avait lieu. Je ne suis vraiment pas sûr de la raison d’être de cette approche.

Au fait, les meilleures pratiques SEO pour la pagination consistent à NE PAS fournir une méta description et un titre identiques sur la page 2, etc. Voici un exemple de la manière dont j’ai mis en œuvre la pagination sur une autre partie de mon site web :

Questions :

  • Quelle est la logique SEO derrière la fourniture de liens canoniques pointant vers des points paginés dans le fil de discussion ?
  • Si cette approche est justifiée d’une manière ou d’une autre, pouvons-nous au moins nous assurer que le titre et les méta ne génèrent pas de résultats dupliqués dans les SERP de Google ?

C’est incorrect.

Pour les robots d’exploration, Discourse utilise des pages de 20 messages, de sorte que chaque message peut être exploré correctement. Il n’y a pas de SPA pour les bots.

Il y a plus de 800 messages, donc c’est normal.

Pourquoi ? Quel est le problème réel ? Si vous effectuez une recherche réelle pour un mot, est-ce que nous redirigeons vers une page qui ne contient pas le mot ou quelque chose comme ça ?

Désolé, le terme SPA est peut-être inapproprié ; je voulais simplement dire qu’un fil de discussion Discourse se comporte un peu comme une application monopage, car la pagination se fait dynamiquement…

Oui, je suppose que cela a du sens. J’ai essayé de rechercher un certain texte sur la page 3 ; Google m’a redirigé vers la page 3, ce qui semble donc correct. L’emplacement exact sur la page n’est pas le bon, mais c’est probablement aussi près que nous pouvons en venir dans cette situation.

En y réfléchissant, je suppose que l’utilisation de balises canoniques pour la pagination a du sens sur les fils de discussion longs. Cependant, si l’on examine les meilleures pratiques en matière de référencement (SEO), les recommandations indiquent qu’il ne faut pas permettre à Google d’indexer du contenu paginé ayant un titre et une méta-description identiques. Je pense que la solution ici consiste à modifier le titre et les méta-données sur les pages suivantes. Voir :

Source : SEO-Friendly Pagination: A Complete Best Practices Guide

En quoi cela serait-il mieux pour les visiteurs humains du forum ? Ne pensez-vous pas que certains pourraient être confus s’ils pensent aller, par exemple, à la « page 2 » et atterrir dans une section de « la seule page » ? Ne chercheraient-ils pas en vain une pagination qui n’existe pas ?

Je préfère avoir plus de visiteurs confus que moins de trafic venant de Google. Le contenu dupliqué est un vrai problème de référencement, et les « j’aime » sur votre commentaire de deux membres de l’équipe Discourse sont vraiment déroutants.

Je ne suis pas sûr que ce soit assez grave pour le qualifier de « vrai problème de référencement ». D’après ce que je sais, sans rel="canonical", ce sont les moteurs de recherche qui décident quelle URL de résultat correspond le mieux à la recherche, plutôt que l’URL que le site souhaiterait voir apparaître (la version canonique).

Je pense que vous avez peut-être oublié l’image que j’ai publiée ci-dessus… Voici le texte :

John Mueller a commenté, « Nous ne traitons pas la pagination différemment. Nous les considérons comme des pages normales. »

Cela signifie que les pages paginées ne sont plus reconnues par Google comme une série de pages consolidées en un seul contenu, comme cela avait été conseillé précédemment. Chaque page paginée peut rivaliser avec la page racine pour le classement.

Pour inciter Google à afficher la page racine dans les SERP et éviter les avertissements « Descriptions méta dupliquées » ou « Balises de titre dupliquées » dans Google Search Console, apportez une modification simple à votre code.

Si la page racine utilise la formule :

Root page SERP

Les pages paginées successives pourraient utiliser la formule :

pagination page SERP

Ces titres de page et méta descriptions pour les URL paginées sont volontairement sous-optimaux afin de dissuader Google d’afficher ces résultats plutôt que la page racine.

Si, même avec ces modifications, les pages paginées apparaissent dans les SERP, essayez d’autres tactiques SEO on-page traditionnelles telles que :

  • Désoptimiser les balises H1 des pages paginées.
  • Ajouter du texte utile sur la page racine, mais pas sur les pages paginées.
  • Ajouter une image de catégorie avec un nom de fichier optimisé et une balise alt à la page racine, mais pas aux pages paginées.

Ah, merci. J’avais effectivement manqué le fait que la préoccupation ne portait pas sur le contenu en double, mais plutôt sur les avertissements concernant les titres et les méta-descriptions en double.

Pour Discourse en tout cas, il s’agit davantage de « notifications » que d’avertissements. C’est un peu comme : « Si vous n’étiez pas au courant de cela, vérifiez que tout est en ordre et corrigez si nécessaire ». Vous pouvez ignorer ces notifications en toute sécurité, car une discussion de sujet ne devrait pas dériver au point que ce qui est approprié pour les premiers messages ne s’applique plus à tous les messages ultérieurs du sujet.

Par exemple, si les messages de la « page 1 » portent sur des « widgets ronds rouges » et que ceux de la « page 2 » parlent de « engrenages carrés verts », les membres devraient être encouragés à rester dans le sujet, ou la discussion devrait être divisée en plusieurs sujets distincts.