Problèmes que Google Search Console me signale concernant une mauvaise structure de discours (ou une mauvaise administration de mon site)

Bathinda · Décembre 17, 2024, 9:22

Après la disparition de l’hystérie initiale (qui peut s’emparer d’une personne qui découvre que depuis près de six mois, Google n’a prêté aucune attention à son site web et qu’il n’en était même pas au courant !),

J’essaierai de lister ici uniquement les causes liées au code de Discourse, c’est-à-dire celles qui ne peuvent être corrigées ni par Google, ni par moi (à ma connaissance), mais par l’équipe de Discourse.

Bloqué par Robots.txt :

image396×173 7.54 KB
Erreur serveur 5xx

Une notification par e-mail de Google Search Console concernant l'indexation de pages due à une erreur de serveur. (Légendé par l'IA)378×352 14.9 KB
Contenu plus large que l'écran et Éléments cliquables trop proches (sur écran mobile)

Une notification par e-mail signalant de nouveaux problèmes d'utilisabilité mobile détectés pour un site web, avec des recommandations pour résoudre les problèmes afin d'assurer la meilleure expérience et couverture dans la recherche Google. (Légendé par l'IA)398×538 27.1 KB
Problèmes de données structurées du forum de discussion :

image385×244 12.9 KB
Problèmes d'indexation vidéo, mais sans autres détails :

L'image montre une notification concernant des problèmes d'indexation vidéo sur un site web. (Légendé par l'IA)376×512 25.1 KB

Lorsque vous cliquez sur « Rapport d’indexation vidéo » :

Et lorsque vous cliquez sur le lien « Améliorations > Vidéos » :

Aidez-moi s’il vous plaît.

Bathinda · Décembre 17, 2024, 10:49

Plus tôt, lorsque j’ai découvert le problème (tout cela peut être ignoré) ::

Après plusieurs mois de perte d’utilisateurs, j’ai découvert aujourd’hui que mon site a été bloqué/interdit par Google !!!

Encore plus tôt, comment j’ai découvert ce problème, tout peut être ignoré :

J’ai lu presque tout ce sujet meta avant de poser la question.

En août 2024, j’ai remarqué que le trafic vers mon site Web avait diminué jusqu’à 95 %. Mais je l’ai ignoré en pensant que je ne postais peut-être pas assez.

Mais aujourd’hui, j’ai découvert que quel que soit le terme que je cherchais sur Google, en limitant la recherche à mon propre site : ***site:BathindaHelper.com jobs in bathinda***, cela donnait ZÉRO résultat (le seul résultat affiché de mon site est en fait juste une suggestion que je crée des publicités Google pour afficher ce résultat à partir de mon site, ce qui indique que mon site a bien été indexé) :

Et enfin, j’ai également vérifié Google Analytics (peut-être renommé en Google Events) et il est clairement indiqué que depuis le 17 juin 2024, Google ne référence plus mon site.

Jagster · Décembre 17, 2024, 11:58

Lorsque vous avez créé votre site, soit en utilisant la connexion forcée, soit en arrêtant d’afficher les sujets TL0+, Google ne peut utiliser un site que s’il est visible par le monde entier. Ou alors, vous avez bloqué les user agents de Google.

Est-ce le même forum où vous avez eu des problèmes de DNS ?

Moin · Décembre 17, 2024, 12:02

Demandez-vous à cause de Site does not appear in google searches - #2 by Bathinda ? Je pense que la réponse ci-dessous répond à la question de l’OP.

Bathinda · Décembre 17, 2024, 12:05

J’ai mal utilisé le mot ‘force’. (Je voulais dire que je forçais la recherche Google à produire des résultats de recherche de mon propre site BathindaHelper.com)

Je n’ai pas créé mon site par une méthode anormale/forcée.
Je n’ai pas délibérément bidouillé quoi que ce soit lié à TL0+ ou similaire.
Depuis une demi-heure, j’ai constaté que (parmi d’autres petits problèmes) mon fichier robots.txt est le coupable, mais je n’ai pas encore réussi à trouver comment résoudre ce problème.
Je ne me souviens pas avoir eu de problèmes de DNS (parlez-vous d’un passé lointain ?). Mon site fonctionne bien, sauf que lorsque moi/l’administrateur actualise mon navigateur, il faut parfois près de 30 à 50 secondes pour l’ouvrir, mais après cela, il fonctionne correctement.

Merci de votre réponse.

Edit :
J’ai ‘désélectionné’ l’option du fichier robots :

mais je ne peux pas dire si la console de recherche Google signale maintenant que tout va bien ou non :

Jagster · Décembre 17, 2024, 12:12

Ouais, j’ai complètement raté la commande. Et maintenant, nous avons une démonstration de ce qui peut arriver quand

des sujets anciens sont abordés
des sujets hors sujet
un utilisateur ne lit pas les sujets

Oui, c’est de ma faute.

Jagster · Décembre 17, 2024, 12:24

Consultez ces paramètres :

allowed crawler user agents
blocked crawler user agents

Mais AFAIK Discourse n’a pas de fichier robots.txt simple en soi comme la plupart des sites, mais il est fait par une sorte de chose étrange en ruby, et il n’y a pas beaucoup de paramètres qu’un administrateur peut ajuster. Sauf ces deux paramètres, et le ralentissement des bots.

C’était juste moi et mes doigts rapides

Moin · Décembre 17, 2024, 12:34

Avez-vous désactivé cela maintenant ou avant que l’indexation ne s’arrête ?

Spécifiez dans robots.txt que ce site est autorisé à être indexé par les moteurs de recherche.

Si vous n’autorisez pas les moteurs de recherche à indexer votre site, cela ne me surprend pas qu’ils ne le fassent pas.

Bathinda · Décembre 17, 2024, 1:45

Je le ferai et je vous ferai un retour.

Je l’ai désactivé après avoir ouvert ce sujet (environ 30 minutes avant maintenant). Bien que ce problème existe depuis 3 mois. Mais je n’ai pas été en mesure de vérifier de manière indépendante si cette « désélection » a pu résoudre le problème d’« indexation Google » ou non.

Je doute que si je ne désactive/bloque pas les sites par Robots.txt, alors TOUS LES SITES SONT AUTORISÉS ? Ou est-ce le contraire, que si je n’autorise pas les sites par Robots.txt, alors tous les sites sont BLOQUÉS de l’indexation ?

Jagster · Décembre 17, 2024, 1:49

J’avais complètement oublié ça. Vous devriez la sélectionner. Si vous ne l’utilisez pas, vous devez vérifier et modifier manuellement le fichier robots.txt pour vous assurer qu’il guide les robots comme vous le souhaitez.

Mais vous pouvez jeter un œil si vous y trouvez quelque chose qui arrêterait Google.

Bathinda · Décembre 17, 2024, 1:54

Ok.
Cela signifie que tous les utilisateurs de Discourse (normalement) devraient spécifier/donner un fichier ‘Robots.txt’.
Et donc, je lirai en détail demain le sujet à ce sujet (comment et quoi devrait figurer dans ce fichier).

Deuxièmement, si ce n’est pas trop long à expliquer, pouvez-vous me dire un moyen simple avec lequel je pourrais modifier certains paramètres dans mon panneau d’administration Discourse et en même temps vérifier en direct/en temps réel si Google est maintenant capable d’accéder (puis d’indexer) mon site librement ou s’il reçoit toujours une erreur ‘Accès interdit - 403’ ?!

Edit : Bien que j’essaie moi-même de trouver des ressources similaires sur Google maintenant/plus tard.

Jagster · Décembre 17, 2024, 1:57

Eh bien, non. Cela signifie que normalement les administrateurs gardent robots.txt activé pour éviter les manipulations manuelles Mais bien sûr, la liste des bots bloqués, etc. est ce qu’un administrateur veut modifier.

nat · Décembre 18, 2024, 9:38

Pouvez-vous vérifier quel est votre paramètre pour blocked_crawler_user_agents ?

Bathinda · Décembre 18, 2024, 11:06

Ce paramètre est comme ci-dessous (je n’ai rien changé) :

Une capture d'écran montrant une page de paramètres avec des options pour bloquer et ralentir des agents utilisateurs de robots spécifiques. (Légendé par l'IA)808×252 20.9 KB
Ici, j’ai écrit ces deux domaines google et google.com hier, à titre d’expérience, je ne sais pas si cela a la priorité sur ‘Blocked Crawler User Agents’ ou non. Ou si cela a résolu mon problème ou non (car Google dit qu’il a mis en file d’attente ma demande d’exploration/indexation, ce qui pourrait prendre jusqu’à 2-3 jours) :

L'image est une capture d'écran d'une page de paramètres avec des options pour les agents utilisateurs de robots autorisés et bloqués, avec une fonctionnalité de recherche ou de création. (Légendé par l'IA)755×163 6.2 KB
Et vous pouvez trouver mon 'Robots.txt’ ici.

Veuillez me dire lequel a la priorité si les 3 ont des paramètres contradictoires.

Firepup650 · Décembre 18, 2024, 11:42

Cela ne devrait pas avoir d’effet, car Google utilise « Googlebot » et ses variantes pour l’exploration :

Bathinda · Décembre 18, 2024, 11:49

En effet, cela a eu l’effet principal !!

Merci à tous, un grand merci de m’avoir aidé à résoudre le problème principal, en utilisant ce réglage :

Mais pour de nombreux autres (petits) problèmes affectant l’indexation par Google, expliqués par moi dans le premier message de ce sujet méta, j’aimerais garder le sujet ouvert.

De plus, je serais obligé si quelqu’un pouvait me dire ce qui se passe si j’ai bloqué le Crawler-1 d’un site sous Agents de robot bloqués et en même temps l’autorisé sous Agents de robot autorisés.
Et si je l’ai autorisé sous Autorisés... mais bloqué via Robots.txt. Qu’est-ce qui a la priorité.

Jagster · Décembre 18, 2024, 12:20

Vous devez supprimer compatible. Cela bloque pratiquement tout, y compris googlebot. À cause de cela :

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Et bloquer facebook n’est pas une bonne idée non plus, si vous partagez des sujets sur Facebook.

Tout ce que vous utilisez dans la blocklist, bloque tous les bots qui ont ce mot dans leur chaîne d’agent utilisateur. Alors, soyez vigilant.

Bathinda · Décembre 18, 2024, 12:24

Ah, c’est peut-être pour ça que j’obtiens toujours une erreur en essayant d’explorer/indexer des sujets (sauf la page d’accueil) via la Google Search Console :

Mais pourquoi (même lorsque compatible était bloqué) seule la page d’accueil est-elle disponible pour la Google Search Console, comme indiqué ci-dessous :

J’ai juste supprimé ce ‘Compatible’ et je vous tiendrai au courant.

Bathinda · Décembre 18, 2024, 12:41

Enfin!!! Il semble que j’aie surmonté l’erreur « interdit » pour la page principale/d’accueil et les sujets individuels, avec 90 % d’aide de votre part et 10 % d’expérimentation de mon côté. Un grand merci.

Après avoir supprimé « Compatible » de la liste « Robots bloqués », j’ai trouvé une note sous un autre paramètre, qui, idiot de ma part de l’ignorer, demandait essentiellement aux utilisateurs de ne pas remplir de valeur dans « Agents utilisateur de robot autorisés » à moins d’être sûr de ce que vous faites. C’est donc là que ça se passait ! Ignorer l’avertissement écrit en majuscules m’a valu des mois d’ignorance de mon site par Google et tellement de problèmes :

Pour quiconque arrive sur ce sujet pour une erreur d’accès interdit-403 dans Google Search Console :

Principalement 2 choses ont résolu mes problèmes, l’une en supprimant « Compatible » de la « Liste des robots bloqués » et
Vider (comme c’est le cas par défaut) le paramètre « Agents utilisateur de robot autorisés ».

Le sujet restera ouvert pour d’autres problèmes de recherche Google (bien que moins critiques que celui-ci).

Sujet		Réponses	Vues
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5589	Juin 1, 2024
Needing to edit robots.txt file - where is it? Support	42	7752	Avril 29, 2023
Google complaining – Indexed, though blocked by robots.txt Support	24	2585	Septembre 28, 2023
Malformed robots.txt causing issues with indexing Support	9	1893	Avril 21, 2023
Sitelinks in Google disappearing Community Building	26	1550	Janvier 27, 2023

Problèmes que Google Search Console me signale concernant une mauvaise structure de discours (ou une mauvaise administration de mon site)

Plus tôt, lorsque j’ai découvert le problème (tout cela peut être ignoré) ::

Encore plus tôt, comment j’ai découvert ce problème, tout peut être ignoré :

Pour quiconque arrive sur ce sujet pour une erreur d’accès interdit-403 dans Google Search Console :

Sujets connexes