Bonjour @kirupa,
Pour information, lorsque Google indexe deux sites dans le même domaine, par exemple dans votre cas kirupa.com avec un contenu similaire, la « pénalité » (ce n’est pas vraiment une « pénalité » à proprement parler, il s’agit davantage d’une « sélection canonique ») fait que l’algorithme de Google sélectionne l’une des pages comme page canonique, et cette page se classera mieux dans les résultats de recherche. (Google peut même exclure de l’index la page qu’il juge non canonique).
Google a été très clair à ce sujet : l’idée d’une « pénalité pour contenu dupliqué » est largement un mythe. Il s’agit réellement de « canonisation » et de « sélection » :
Si votre site contient plusieurs pages avec un contenu largement identique, il existe plusieurs façons d’indiquer à Google l’URL préférée. (Cela s’appelle la « canonisation ».) Plus d’informations sur la canonisation. (Réf 1)
Par exemple, si vous maintenez votre ancien site en ligne en même temps que votre nouveau site, vous pouvez utiliser la balise link canonical pour indiquer à Google que votre nouveau site est le site canonique, et Google privilégiera alors votre nouveau site.
Une meilleure solution consiste à permettre aux moteurs de recherche de parcourir ces URL, mais de les marquer comme dupliquées en utilisant l’élément de lien rel="canonical", l’outil de gestion des paramètres d’URL ou des redirections 301. Dans les cas où le contenu dupliqué entraîne un crawl excessif de votre site web, vous pouvez également ajuster le paramètre de taux de crawl dans la Search Console. (Réf 1)
Exemple :
<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />
@kirupa, vous avez également demandé :
Chaque sujet est-il considéré comme une « page » indexable par Google ? La raison pour laquelle je pose cette question est qu’une grande partie des sujets de notre forum ne figurent pas dans la base de données de Google.
Pour une excellente discussion (bien que quelque peu datée) sur Google et le défilement infini, je recommande le Blog officiel du centre de webmasters Google, (Réf 2) :
https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html
@kirupa, une façon de vérifier (de manière pratique, pas théorique) consiste à utiliser GSC et à consulter leur « capture d’écran » montrant comment ils représentent votre page. Cela se fait facilement avec la fonction « vérifier la compatibilité mobile » dans GSC (par exemple) ; et si vous prenez un message très long dans Discourse, vous pouvez vérifier quelle partie de cette page Google indexe (lit et indexe). Il existe de nombreuses opinions sur le défilement infini et la façon dont Google indexe ces pages. Vous pouvez utiliser GSC pour vérifier vos pages et voir par vous-même.
Selon Martin Splitt de Google (voir référence 3), le 14 avril 2020 :
Splitt a donné l’exemple d’un site d’actualités qui utilise le défilement infini (également appelé « chargement différé » ou « lazy loading ») pour charger du nouveau contenu.
Cela signifie que la page web, dans ce cas la page d’accueil, ne charge pas de contenu supplémentaire tant qu’un visiteur ne fait pas défiler jusqu’en bas de l’écran.
Splitt explique pourquoi cela pose problème : « Que ne fait pas Googlebot ? Il ne fait pas défiler. »
Ce que fait Googlebot, c’est atterrir sur une page et parcourir ce qui est immédiatement visible.
Selon les déclarations de Splitt, Googlebot ne peut pas parcourir le contenu qui ne se charge qu’après un défilement de la page.
Comme mentionné, @kirupa, vous pouvez vérifier vos propres pages en utilisant les outils de GSC, qui vous montreront une capture d’écran de la façon dont Google voit (et indexe) vos pages.
Selon Splitt de Google en avril 2020 : « Googlebot ne fait pas défiler. » (en paraphrasant)
Concernant la question du sujet « Indexation de la recherche Google et Discourse », chaque propriétaire de site peut facilement utiliser GSC pour déterminer comment Googlebot indexe une page particulière.
Ma recommandation, et j’espère que cela vous aidera un peu, est d’utiliser GSC (Google Search Console) pour vérifier vos propres pages si vous avez des questions sur la façon dont Googlebot indexe vos pages.
Références :
-
How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central | Documentation | Google for Developers
-
https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html
-
Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems