Indexation et discours dans la recherche Google

Bonjour à tous !

J’ai lu divers posts indiquant que le robot d’indexation de Google n’a aucune difficulté à indexer un forum Discourse. Ma question est un peu différente. Chaque sujet est-il considéré comme une « page » indexable par Google ? La raison pour laquelle je pose cette question est qu’une grande partie des sujets de notre forum ne figurent pas dans la base de données de Google. Cela est confirmé en examinant les données de la Google Search Console :

Seules environ 17 000 entrées existent, alors que les forums contiennent plusieurs centaines de milliers de sujets (voire des millions ?). Les erreurs robots.txt concernent des pages qui ne devraient légitimement pas être indexées. Cela semble indiquer que le robot d’exploration ne visite pas automatiquement tous les anciens sujets comme il le devrait.

Y a-t-il un paramètre que je dois activer pour garantir qu’une plus grande partie des anciens sujets soit indexée de manière opportune ? Pour les éléments situés au-dessus de la ligne de flottaison, l’indexation et les résultats de Google sont excellents. Cela n’affecte que les sujets qui se retrouvent en dessous de la ligne de flottaison.

Merci,
Kirupa

2 « J'aime »

Pour une expérience, j’ai chargé Meta en utilisant la vue du crawler avec la chaîne d’agent utilisateur GoogleBot. Ensuite, je suis allé jusqu’à la page 666 de notre dernière liste, qui contient des sujets mis à jour pour la dernière fois à la mi-2017, il y a presque 3 ans.

L’un des sujets de la liste est Intégration profonde de Discourse dans une application Ionic. J’ai effectué une recherche Google sans être connecté et la recherche pour « integration discourse ionic » le place tout en haut des résultats !!

Meta est une instance « petite » avec moins de 30 000 sujets, mais tous semblent être correctement indexés. Comme il s’agit d’un ancien domaine et que nous sommes le résultat n°1 pour tout ce qui concerne Discourse, nous obtenons suffisamment de « karma » auprès de GoogleBot, ce qui lui permet de parcourir notre domaine pendant une durée suffisante pour indexer tout ce qui est nécessaire.

Votre forum a-t-il migré d’un ancien logiciel vers Discourse ?

5 « J'aime »

Si vous devez accélérer l’indexation, vous pouvez essayer le plugin sitemap.

Le crawl standard détectera tout, mais le sitemap pourrait peut-être accélérer l’indexation de certains éléments.

Veuillez publier les résultats si vous le faites.

Aussi, pouvez-vous poster 5 exemples de contenu unique et de qualité que vous avez sur votre forum et qui est totalement absent de Google ?

6 « J'aime »

Peut-être que Google examine également la fréquentation du sujet (s’il y a un compteur) ou si le sujet contient des liens vers lesquels des transitions actives se produisent. Google peut ne pas visiter certaines pages qu’il juge « peu intéressantes » pour les utilisateurs. Il existe une astuce, généralement vérifiée de la manière suivante. C’est du référencement (SEO). Placez un lien depuis une autre ressource et cliquez dessus. Vous n’avez pas besoin de beaucoup, seulement quelques-unes (transitions). Cela suffit généralement pour intéresser Google. Là où les gens vont, il s’y trouve aussi.

Sur les grands sites de Google, il ne suffit pas de savoir que la page existe. Il a besoin de plus de signaux : activité, taux de clics, vues, etc.

1 « J'aime »

@Falco - oui, les forums ont bien été migrés depuis vBulletin, mais cela s’est produit vers la fin de l’année 2014. J’ai supprimé tous les liens publics vers les anciens forums, donc il n’y a aucun risque que du contenu dupliqué nuise à l’indexation par les moteurs de recherche.

@sam - oui, voici quelques exemples :

Tous ces posts ont été mentionnés par moi sur Twitter ou sur une page Facebook publique à un moment donné au cours des trois dernières années, donc ce ne sont pas des contenus enfouis et perdus à jamais.

Concernant le plugin de sitemap, je vais essayer. Je publierai toutes les données que je réussirai à trouver. Merci à tous d’avoir pris le temps de vous aider :slight_smile:

Salutations,
Kirupa

1 « J'aime »

C’est mon troisième résultat pour « js using generators animate example ».

Cela a peut-être été un mauvais exemple à poster aujourd’hui, car je l’ai soumis manuellement à l’indexation il y a quelques heures à titre de test. Voici ce qu’un de mes administrateurs de forum a vu plus tôt pour ce terme de recherche, il y a 7 heures :

Vous avez raison, c’est l’un des premiers résultats en ce moment. Je me demande si l’indexation manuelle y est pour quelque chose.

MODIFICATION : Je viens de configurer le plug-in Sitemap et je vais soumettre le sitemap à Google pour l’indexation !

1 « J'aime »

Bonjour @kirupa,

Pour information, lorsque Google indexe deux sites dans le même domaine, par exemple dans votre cas kirupa.com avec un contenu similaire, la « pénalité » (ce n’est pas vraiment une « pénalité » à proprement parler, il s’agit davantage d’une « sélection canonique ») fait que l’algorithme de Google sélectionne l’une des pages comme page canonique, et cette page se classera mieux dans les résultats de recherche. (Google peut même exclure de l’index la page qu’il juge non canonique).

Google a été très clair à ce sujet : l’idée d’une « pénalité pour contenu dupliqué » est largement un mythe. Il s’agit réellement de « canonisation » et de « sélection » :

Si votre site contient plusieurs pages avec un contenu largement identique, il existe plusieurs façons d’indiquer à Google l’URL préférée. (Cela s’appelle la « canonisation ».) Plus d’informations sur la canonisation. (Réf 1)

Par exemple, si vous maintenez votre ancien site en ligne en même temps que votre nouveau site, vous pouvez utiliser la balise link canonical pour indiquer à Google que votre nouveau site est le site canonique, et Google privilégiera alors votre nouveau site.

Une meilleure solution consiste à permettre aux moteurs de recherche de parcourir ces URL, mais de les marquer comme dupliquées en utilisant l’élément de lien rel="canonical", l’outil de gestion des paramètres d’URL ou des redirections 301. Dans les cas où le contenu dupliqué entraîne un crawl excessif de votre site web, vous pouvez également ajuster le paramètre de taux de crawl dans la Search Console. (Réf 1)

Exemple :

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

@kirupa, vous avez également demandé :

Chaque sujet est-il considéré comme une « page » indexable par Google ? La raison pour laquelle je pose cette question est qu’une grande partie des sujets de notre forum ne figurent pas dans la base de données de Google.

Pour une excellente discussion (bien que quelque peu datée) sur Google et le défilement infini, je recommande le Blog officiel du centre de webmasters Google, (Réf 2) :

https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

@kirupa, une façon de vérifier (de manière pratique, pas théorique) consiste à utiliser GSC et à consulter leur « capture d’écran » montrant comment ils représentent votre page. Cela se fait facilement avec la fonction « vérifier la compatibilité mobile » dans GSC (par exemple) ; et si vous prenez un message très long dans Discourse, vous pouvez vérifier quelle partie de cette page Google indexe (lit et indexe). Il existe de nombreuses opinions sur le défilement infini et la façon dont Google indexe ces pages. Vous pouvez utiliser GSC pour vérifier vos pages et voir par vous-même.

Selon Martin Splitt de Google (voir référence 3), le 14 avril 2020 :

Splitt a donné l’exemple d’un site d’actualités qui utilise le défilement infini (également appelé « chargement différé » ou « lazy loading ») pour charger du nouveau contenu.

Cela signifie que la page web, dans ce cas la page d’accueil, ne charge pas de contenu supplémentaire tant qu’un visiteur ne fait pas défiler jusqu’en bas de l’écran.

Splitt explique pourquoi cela pose problème : « Que ne fait pas Googlebot ? Il ne fait pas défiler. »

Ce que fait Googlebot, c’est atterrir sur une page et parcourir ce qui est immédiatement visible.

Selon les déclarations de Splitt, Googlebot ne peut pas parcourir le contenu qui ne se charge qu’après un défilement de la page.

Comme mentionné, @kirupa, vous pouvez vérifier vos propres pages en utilisant les outils de GSC, qui vous montreront une capture d’écran de la façon dont Google voit (et indexe) vos pages.

Selon Splitt de Google en avril 2020 : « Googlebot ne fait pas défiler. » (en paraphrasant)

Concernant la question du sujet « Indexation de la recherche Google et Discourse », chaque propriétaire de site peut facilement utiliser GSC pour déterminer comment Googlebot indexe une page particulière.

Ma recommandation, et j’espère que cela vous aidera un peu, est d’utiliser GSC (Google Search Console) pour vérifier vos propres pages si vous avez des questions sur la façon dont Googlebot indexe vos pages.

Références :

  1. How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

  2. https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

  3. Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems

5 « J'aime »

Merci pour cette excellente réponse, @neounix ! Je vais passer en revue et suivre vos suggestions sous peu :slight_smile:

Rendre à nouveau visibles les anciens forums (kirupaForum) et ajouter la balise meta canonique sur le nouveau forum actif semble être une bonne idée. Je vais expérimenter cela cette semaine.

En attendant, j’ai soumis un sitemap contenant environ 300 000 entrées à la Google Search Console.

2 « J'aime »

Cher @kirupa,

Je vous en prie.

Pour information,

Les forums Discourse ajoutent déjà automatiquement la balise canonique aux sujets.

Voici un lien vers votre forum, ainsi que le code source montrant que cela fonctionne pour l’un de vos exemples (ci-dessus) :

Screen Shot 2020-06-09 at 1.48.45 PM

Vous pouvez constater que votre page Discourse possède déjà une balise canonique.

Un « truc » (non officiel mais réalisable) consiste à ajouter cette même balise sur vos « anciens forums » (en pointant vers les nouveaux forums) ou, à tout le moins, à vous assurer que vos anciens forums ne possèdent pas de balise canonique.

Cependant, pour être honnête, obtenir l’identifiant du sujet correct pour les forums Discourse dans la base de données de vos anciens forums demande un certain travail (nous l’avons fait pour d’autres raisons, donc je sais par expérience que c’est réalisable, car nous utilisons ces informations dans les deux forums actuellement).

Il existe une table de base de données « post custom fields » dans Discourse qui contient la correspondance entre vos anciens forums (identifiants de sujet et de message) ; vous pourriez (si vous le souhaitez) exporter ces données depuis Discourse et les importer dans vos anciens forums.

Ensuite, vous pourriez (si vous le souhaitez, je ne recommande pas une approche plutôt qu’une autre) créer facilement une balise canonique dans vos anciens forums pointant vers vos nouveaux forums Discourse, si vous le désirez (en fonction de votre stratégie SEO et de la manière dont vous souhaitez aborder la question).

Certaines personnes préfèrent rediriger les pages de l’ancien forum via une redirection 301. Tout cela dépend de vous et de la façon dont vous souhaitez gérer les choses ! Gardez à l’esprit que si vous optez pour une redirection 301, vous aurez également besoin des correspondances entre les identifiants de sujet (et de message) Discourse et les identifiants de sujet et de message de vos anciens forums.

J’espère que ce rapide complément d’information vous sera utile, @kirupa.

Meilleures salutations et bonne continuation !

2 « J'aime »