Pourquoi Google n'indexe-t-il pas Discourse ? Préoccupations SEO

Je ne suis pas sûr de la raison pour laquelle Google n’indexe pas le contenu de notre communauté Discourse.

Regardez cette page ici : Welcome to the Appsmith Community | Appsmith Community Portal
Le titre est assez unique. J’imagine que lorsque je copie-colle le titre dans Google, le premier lien devrait être l’URL ci-dessus.

Au lieu de cela, voici ce que j’obtiens : Non seulement ce n’est pas le premier lien, mais il n’apparaît pas du tout.

Qu’est-ce que je fais de mal ?

2 « J'aime »

Il pourrait y avoir tellement de raisons à cela.

Le Googlebot explore-t-il réellement votre site ? Vérifiez mysite.com/admin/reports/web_crawlers

Le Googlebot est-il bloqué ou limité en débit ? Vérifiez mysite.com/admin/site_settings/category/security?filter=crawler%20user%20agents

Avez-vous ajouté votre site à Google Search Console ?

Les personnes auto-hébergées peuvent même installer le plug-in suivant pour vous aider

2 « J'aime »

Le plug-in Sitemap est également disponible sur nos plans Business et Enterprise.

Probablement rien. Pour une raison quelconque, Google semble donner plus de priorité à « Comment faire X » qu’au sujet réel portant ce titre exact. Pourquoi ? Je ne suis pas sûr. Il se pourrait que ce soit simplement une IA qui prend cette décision en fonction de modèles inconnus.

6 « J'aime »

Aka Google Patterns que personne ne connaît :wink:

2 « J'aime »

C’est donc un gros problème pour nous. Nous allons examiner cela, mais cela va un peu à l’encontre de l’objectif général, car nous ne pouvons pas nous attendre à ce que les gens “parcourent” tous les sujets de la communauté. En pratique, la plupart des gens chercheront leur problème sur Google (même s’ils sont membres de la communauté) pour trouver la réponse.

2 « J'aime »

Il est vraiment difficile de dire ce qui se passe avec Google dans votre cas. J’ai pris la liberté de jeter un coup d’œil plus attentif à vos statistiques de robot d’exploration et, à première vue, il semble que le robot d’exploration de Google ne visite pas très souvent votre communauté. Avez-vous déjà essayé d’obtenir des informations à partir de la Google Search Console ? Il y a peut-être des informations qui pourraient aider à résoudre ce problème.

Je constate le même comportement pour une petite partie des sujets récemment créés ici sur Meta. Je vais en discuter avec notre équipe afin de déterminer si nous pouvons faire quelque chose ou s’il s’agit simplement de Google étant Google. Je vous tiendrai au courant.

Avez-vous également vu nos deux articles de blog sur le SEO ?

2 « J'aime »

Ce comportement de Google a commencé il y a des mois et s’aggrave malheureusement.

Le sitemap n’a pas aidé dans mon cas…

1 « J'aime »

Oui, c’est la première question que je poserais.

4 « J'aime »

Eh bien… notre site est appsmith.com, donc tous les sous-domaines et sous-dossiers de appsmith.com devraient idéalement être indexés lorsque nous soumettons appsmith.com à GSC, n’est-ce pas ?

J’ai ajouté community.appsmith.com (notre forum Discourse) à GSC aujourd’hui, mais je ne suis pas sûr que cela change quoi que ce soit.

J’ajouterais le sous-domaine comme propriété distincte dans votre GSC et soumettrais un sitemap dédié pour le sous-domaine.

1 « J'aime »

@constantine

Votre forum est indexé depuis mai 2021

Oui :slight_smile:

Cela semble donc être un problème. Car nous ne pouvons absolument pas continuer si Google n’indexe pas les publications individuelles, car cela va à l’encontre de l’objectif même d’avoir la communauté (puisque la plupart des gens découvriront le contenu via Google - y compris nos utilisateurs actuels - au lieu de passer par les catégories sur Discourse).

Et cela ne semble pas être un problème uniquement sur notre Discourse, mais même sur ce forum (meta.discourse.org).

Pour le démontrer, j’ai recherché le titre de ce message sur Google, et voici le résultat que j’ai obtenu :

En gros, pour les personnes qui finissent par utiliser la communauté Discourse comme base de connaissances (ce que font bien sûr de nombreuses entreprises), cela devient un gros problème.

Nous avons suivi la quasi-totalité des directives données dans les 2 blogs sur le SEO partagés ci-dessus, notre contenu est riche, détaillé, très technique. Pourtant, lorsque les gens le recherchent sur Google, il n’apparaît pas.

Alors, de vraies questions, messieurs : Compte tenu de notre cas d’utilisation (créer une base de connaissances via des requêtes de support, ce qui peut également aider en SEO), et compte tenu du problème, recommanderiez-vous que nous commencions simplement à envisager une alternative ?

1 « J'aime »

Voici un extrait de Google

L’indexation de votre contenu par Google est déterminée par des algorithmes système qui tiennent compte de la demande des utilisateurs et des contrôles de qualité.

N’oubliez pas non plus que seuls les utilisateurs TL3 et supérieurs ont les liens nofollow désactivés.

Voici quelque chose à lire :

En d’autres termes, mes publications ont plus de « poids » que vos publications.

mes excuses, vous avez raison :+1:

1 « J'aime »

@constantine Il semble que Google préfère les pages du sous-domaine https://docs.appsmith.com aux pages de https://community.appsmith.com

La plupart des résultats de recherche proviennent de docs.appsmith.com
Google Search

Une supposition : la préférence de Google pour un sous-domaine par rapport à l’autre pourrait être influencée par les « Core Web Vitals » Largest Contentful Paint (LCP)
Le rapport simulé sur https://pagespeed.web.dev/ est « buggé » par Discourse. Mieux vaut vérifier le rapport Google Search Console « Expérience » → « Core Web Vitals » pour votre domaine.

Juste une mise à jour les amis, nous avons auto-hébergé Discourse et soumis le sitemap à Search Console et maintenant notre contenu est indexé par Google. Alors peut-être que quelque chose ne va pas avec la version hébergée dans le cloud ?

Je ne suis pas sûr que cela soit lié aux sitemaps ou à l’hébergement cloud. Meta est hébergé sur AWS, ce qui est un endroit complètement différent de celui où nous hébergeons bon nombre de nos autres clients, et nous avons commencé à constater des résultats très inégaux pour Meta récemment, ainsi que pour de nombreux sites sur diverses options d’hébergement.

J’ai essayé d’ajuster quelques éléments pour voir si quelque chose aide.

  • Nous ne suivons plus les liens vers .rss, ce qui évite à Google d’analyser les variantes /1 /2, etc. d’un sujet qui partagent tous un canonical.

  • Nous indiquons explicitement à Google de ne pas suivre les liens dans le flux .rss au cas où il obtiendrait un flux rss.

  • J’ai temporairement désactivé certains ajustements de canonical que nous avions effectués - qui semblaient prometteurs : Search engines now blocked from indexing non-canonical pages

Le symptôme que j’observe ici sur meta est que

  1. Google explore TOUT le contenu, je peux le voir dans les journaux web.
  2. Malgré l’exploration des pages, environ 50 % des nouveaux sujets meta récents n’apparaissent pas dans l’index.

C’est extrêmement préoccupant, Google nous donne très peu de visibilité sur le “pourquoi ?”.

Ma prochaine étape est d’obtenir plus de données et de mettre en place un rapport continu. Nous utiliserons probablement serpapi pour déterminer quelles pages sont manquantes sur Google et essayer de trouver un schéma.

5 « J'aime »

Parce que Meta, c’est-à-dire les OP ici, n’utilise pas le « pourquoi » comme le souhaite Google ? J’ai fait quelques expériences et même si le contexte reste le même, l’utilisation de phrases différentes modifie les résultats de recherche. Comme prévu.

Et… l’historique de recherche personnel est une chose importante et pas si bonne. Mes résultats pointent assez souvent ailleurs que vers Meta, car je fais des recherches ici, pas via Google.

Oui. Discourse peut encore avoir des problèmes avec Google, et cela peut ou non provenir du « statut de forum » où Google ne réagit pas aux forums de la même manière qu’à un site Web ordinaire. Ou il y a des problèmes techniques — même si c’est rarement la raison.

C’est la même chose que j’ai faite, après une période initiale d’amélioration, cela revient à être ignoré.
Après deux mois, même les nouveaux fils de discussion dans le sitemap ne sont pas indexés, c’est une situation qui dure depuis des mois et nous avons perdu beaucoup de vues.

Nous voulons essayer ceci pendant un mois et si cela ne s’améliore pas, nous changerons de logiciel :sob:

Consultez le rapport de Google Search Console « Index » —> « Couverture » pour les pages « manquantes ». Cela ne vous indiquera peut-être pas « pourquoi », mais « ce qui se passe ».

  1. Ouvrez « Index » —> « Couverture » (https://search.google.com/search-console/index?hl=en) pour votre domaine.

  2. Sélectionnez « Toutes les pages soumises »

  3. Regardez particulièrement « Exclus »

Description des différentes étapes : Page indexing report - Search Console Help

Mon hypothèse concernant Google : « Rastreada - actuellement non indexée » a une limite supérieure définie par Google - tant qu’il y a trop de pages dans cet état, de nouvelles pages n’entreront que très lentement dans l’index Google.


Concernant les performances du robot d’exploration de Google, consultez le rapport Google Search Console « Paramètres » —> « Statistiques de rastreado » (https://search.google.com/search-console/settings/crawl-stats?hl=en)

Ici, la chronologie et l’évolution du « temps de réponse moyen » sont particulièrement intéressantes : une réponse plus rapide = plus de requêtes de rastreado

Et aussi « Par objectif » est intéressant :