Problèmes que Google Search Console me signale concernant une mauvaise structure de discours (ou une mauvaise administration de mon site)

Après la disparition de l’hystérie initiale (qui peut s’emparer d’une personne qui découvre que depuis près de six mois, Google n’a prêté aucune attention à son site web et qu’il n’en était même pas au courant !),

J’essaierai de lister ici uniquement les causes liées au code de Discourse, c’est-à-dire celles qui ne peuvent être corrigées ni par Google, ni par moi (à ma connaissance), mais par l’équipe de Discourse.

Lorsque vous cliquez sur « Rapport d’indexation vidéo » :

Et lorsque vous cliquez sur le lien « Améliorations > Vidéos » :

Aidez-moi s’il vous plaît.

Plus tôt, lorsque j’ai découvert le problème (tout cela peut être ignoré) ::

Après plusieurs mois de perte d’utilisateurs, j’ai découvert aujourd’hui que mon site a été bloqué/interdit par Google !!!

Encore plus tôt, comment j’ai découvert ce problème, tout peut être ignoré :

J’ai lu presque tout ce sujet meta avant de poser la question.

En août 2024, j’ai remarqué que le trafic vers mon site Web avait diminué jusqu’à 95 %. Mais je l’ai ignoré en pensant que je ne postais peut-être pas assez.

Mais aujourd’hui, j’ai découvert que quel que soit le terme que je cherchais sur Google, en limitant la recherche à mon propre site : ***site:BathindaHelper.com jobs in bathinda***, cela donnait ZÉRO résultat (le seul résultat affiché de mon site est en fait juste une suggestion que je crée des publicités Google pour afficher ce résultat à partir de mon site, ce qui indique que mon site a bien été indexé) :


Et enfin, j’ai également vérifié Google Analytics (peut-être renommé en Google Events) et il est clairement indiqué que depuis le 17 juin 2024, Google ne référence plus mon site.

Lorsque vous avez créé votre site, soit en utilisant la connexion forcée, soit en arrêtant d’afficher les sujets TL0+, Google ne peut utiliser un site que s’il est visible par le monde entier. Ou alors, vous avez bloqué les user agents de Google.

Est-ce le même forum où vous avez eu des problèmes de DNS ?

2 « J'aime »

Demandez-vous à cause de Site does not appear in google searches - #2 by Bathinda ? Je pense que la réponse ci-dessous répond à la question de l’OP.

1 « J'aime »

J’ai mal utilisé le mot ‘force’. (Je voulais dire que je forçais la recherche Google à produire des résultats de recherche de mon propre site BathindaHelper.com)

  • Je n’ai pas créé mon site par une méthode anormale/forcée.
  • Je n’ai pas délibérément bidouillé quoi que ce soit lié à TL0+ ou similaire.
  • Depuis une demi-heure, j’ai constaté que (parmi d’autres petits problèmes) mon fichier robots.txt est le coupable, mais je n’ai pas encore réussi à trouver comment résoudre ce problème.
  • Je ne me souviens pas avoir eu de problèmes de DNS (parlez-vous d’un passé lointain ?). Mon site fonctionne bien, sauf que lorsque moi/l’administrateur actualise mon navigateur, il faut parfois près de 30 à 50 secondes pour l’ouvrir, mais après cela, il fonctionne correctement.

Merci de votre réponse.

Edit :
J’ai ‘désélectionné’ l’option du fichier robots :

mais je ne peux pas dire si la console de recherche Google signale maintenant que tout va bien ou non :

Ouais, j’ai complètement raté la commande. Et maintenant, nous avons une démonstration de ce qui peut arriver quand

  • des sujets anciens sont abordés
  • des sujets hors sujet
  • un utilisateur ne lit pas les sujets :joy:

Oui, c’est de ma faute.

2 « J'aime »

Consultez ces paramètres :

  • allowed crawler user agents
  • blocked crawler user agents

Mais AFAIK Discourse n’a pas de fichier robots.txt simple en soi comme la plupart des sites, mais il est fait par une sorte de chose étrange en ruby, et il n’y a pas beaucoup de paramètres qu’un administrateur peut ajuster. Sauf ces deux paramètres, et le ralentissement des bots.

C’était juste moi et mes doigts rapides :man_facepalming:

1 « J'aime »

Avez-vous désactivé cela maintenant ou avant que l’indexation ne s’arrête ?

Spécifiez dans robots.txt que ce site est autorisé à être indexé par les moteurs de recherche.

Si vous n’autorisez pas les moteurs de recherche à indexer votre site, cela ne me surprend pas qu’ils ne le fassent pas.

3 « J'aime »

Je le ferai et je vous ferai un retour.

Je l’ai désactivé après avoir ouvert ce sujet (environ 30 minutes avant maintenant). Bien que ce problème existe depuis 3 mois. Mais je n’ai pas été en mesure de vérifier de manière indépendante si cette « désélection » a pu résoudre le problème d’« indexation Google » ou non.

Je doute que si je ne désactive/bloque pas les sites par Robots.txt, alors TOUS LES SITES SONT AUTORISÉS ? Ou est-ce le contraire, que si je n’autorise pas les sites par Robots.txt, alors tous les sites sont BLOQUÉS de l’indexation ?

J’avais complètement oublié ça. Vous devriez la sélectionner. Si vous ne l’utilisez pas, vous devez vérifier et modifier manuellement le fichier robots.txt pour vous assurer qu’il guide les robots comme vous le souhaitez.

Mais vous pouvez jeter un œil si vous y trouvez quelque chose qui arrêterait Google.

1 « J'aime »

Ok.
Cela signifie que tous les utilisateurs de Discourse (normalement) devraient spécifier/donner un fichier ‘Robots.txt’.
Et donc, je lirai en détail demain le sujet à ce sujet (comment et quoi devrait figurer dans ce fichier).

Deuxièmement, si ce n’est pas trop long à expliquer, pouvez-vous me dire un moyen simple avec lequel je pourrais modifier certains paramètres dans mon panneau d’administration Discourse et en même temps vérifier en direct/en temps réel si Google est maintenant capable d’accéder (puis d’indexer) mon site librement ou s’il reçoit toujours une erreur ‘Accès interdit - 403’ ?!

Edit : Bien que j’essaie moi-même de trouver des ressources similaires sur Google maintenant/plus tard.

Eh bien, non. Cela signifie que normalement les administrateurs gardent robots.txt activé pour éviter les manipulations manuelles :wink: Mais bien sûr, la liste des bots bloqués, etc. est ce qu’un administrateur veut modifier.

2 « J'aime »

Pouvez-vous vérifier quel est votre paramètre pour blocked_crawler_user_agents ?

1 « J'aime »
  1. Ce paramètre est comme ci-dessous (je n’ai rien changé) :

  2. Ici, j’ai écrit ces deux domaines google et google.com hier, à titre d’expérience, je ne sais pas si cela a la priorité sur ‘Blocked Crawler User Agents’ ou non. Ou si cela a résolu mon problème ou non (car Google dit qu’il a mis en file d’attente ma demande d’exploration/indexation, ce qui pourrait prendre jusqu’à 2-3 jours) :

  3. Et vous pouvez trouver mon 'Robots.txt’ ici.

Veuillez me dire lequel a la priorité si les 3 ont des paramètres contradictoires.

Cela ne devrait pas avoir d’effet, car Google utilise « Googlebot » et ses variantes pour l’exploration :

3 « J'aime »

En effet, cela a eu l’effet principal !!

Merci à tous, un grand merci de m’avoir aidé à résoudre le problème principal, en utilisant ce réglage :

Mais pour de nombreux autres (petits) problèmes affectant l’indexation par Google, expliqués par moi dans le premier message de ce sujet méta, j’aimerais garder le sujet ouvert.

De plus, je serais obligé si quelqu’un pouvait me dire ce qui se passe si j’ai bloqué le Crawler-1 d’un site sous Agents de robot bloqués et en même temps l’autorisé sous Agents de robot autorisés.
Et si je l’ai autorisé sous Autorisés... mais bloqué via Robots.txt. Qu’est-ce qui a la priorité.

Vous devez supprimer compatible. Cela bloque pratiquement tout, y compris googlebot. À cause de cela :

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Et bloquer facebook n’est pas une bonne idée non plus, si vous partagez des sujets sur Facebook.

Tout ce que vous utilisez dans la blocklist, bloque tous les bots qui ont ce mot dans leur chaîne d’agent utilisateur. Alors, soyez vigilant.

3 « J'aime »

Ah, c’est peut-être pour ça que j’obtiens toujours une erreur en essayant d’explorer/indexer des sujets (sauf la page d’accueil) via la Google Search Console :

Mais pourquoi (même lorsque compatible était bloqué) seule la page d’accueil est-elle disponible pour la Google Search Console, comme indiqué ci-dessous :

J’ai juste supprimé ce ‘Compatible’ et je vous tiendrai au courant.

Enfin!!! Il semble que j’aie surmonté l’erreur « interdit » pour la page principale/d’accueil et les sujets individuels, avec 90 % d’aide de votre part et 10 % d’expérimentation de mon côté. Un grand merci.

Après avoir supprimé « Compatible » de la liste « Robots bloqués », j’ai trouvé une note sous un autre paramètre, qui, idiot de ma part de l’ignorer, demandait essentiellement aux utilisateurs de ne pas remplir de valeur dans « Agents utilisateur de robot autorisés » à moins d’être sûr de ce que vous faites. C’est donc là que ça se passait ! Ignorer l’avertissement écrit en majuscules m’a valu des mois d’ignorance de mon site par Google et tellement de problèmes :


Pour quiconque arrive sur ce sujet pour une erreur d’accès interdit-403 dans Google Search Console :

  • Principalement 2 choses ont résolu mes problèmes, l’une en supprimant « Compatible » de la « Liste des robots bloqués » et
  • Vider (comme c’est le cas par défaut) le paramètre « Agents utilisateur de robot autorisés ».

Le sujet restera ouvert pour d’autres problèmes de recherche Google (bien que moins critiques que celui-ci).

1 « J'aime »