Après la disparition de l’hystérie initiale (qui peut s’emparer d’une personne qui découvre que depuis près de six mois, Google n’a prêté aucune attention à son site web et qu’il n’en était même pas au courant !),
J’essaierai de lister ici uniquement les causes liées au code de Discourse, c’est-à-dire celles qui ne peuvent être corrigées ni par Google, ni par moi (à ma connaissance), mais par l’équipe de Discourse.
Encore plus tôt, comment j’ai découvert ce problème, tout peut être ignoré :
J’ai lu presque tout ce sujet meta avant de poser la question.
En août 2024, j’ai remarqué que le trafic vers mon site Web avait diminué jusqu’à 95 %. Mais je l’ai ignoré en pensant que je ne postais peut-être pas assez.
Mais aujourd’hui, j’ai découvert que quel que soit le terme que je cherchais sur Google, en limitant la recherche à mon propre site : ***site:BathindaHelper.com jobs in bathinda***, cela donnait ZÉRO résultat (le seul résultat affiché de mon site est en fait juste une suggestion que je crée des publicités Google pour afficher ce résultat à partir de mon site, ce qui indique que mon site a bien été indexé) :
Et enfin, j’ai également vérifié Google Analytics (peut-être renommé en Google Events) et il est clairement indiqué que depuis le 17 juin 2024, Google ne référence plus mon site.
Lorsque vous avez créé votre site, soit en utilisant la connexion forcée, soit en arrêtant d’afficher les sujets TL0+, Google ne peut utiliser un site que s’il est visible par le monde entier. Ou alors, vous avez bloqué les user agents de Google.
Est-ce le même forum où vous avez eu des problèmes de DNS ?
J’ai mal utilisé le mot ‘force’. (Je voulais dire que je forçais la recherche Google à produire des résultats de recherche de mon propre site BathindaHelper.com)
Je n’ai pas créé mon site par une méthode anormale/forcée.
Je n’ai pas délibérément bidouillé quoi que ce soit lié à TL0+ ou similaire.
Depuis une demi-heure, j’ai constaté que (parmi d’autres petits problèmes) mon fichier robots.txt est le coupable, mais je n’ai pas encore réussi à trouver comment résoudre ce problème.
Je ne me souviens pas avoir eu de problèmes de DNS (parlez-vous d’un passé lointain ?). Mon site fonctionne bien, sauf que lorsque moi/l’administrateur actualise mon navigateur, il faut parfois près de 30 à 50 secondes pour l’ouvrir, mais après cela, il fonctionne correctement.
Merci de votre réponse.
Edit :
J’ai ‘désélectionné’ l’option du fichier robots :
Mais AFAIK Discourse n’a pas de fichier robots.txt simple en soi comme la plupart des sites, mais il est fait par une sorte de chose étrange en ruby, et il n’y a pas beaucoup de paramètres qu’un administrateur peut ajuster. Sauf ces deux paramètres, et le ralentissement des bots.
Je l’ai désactivé après avoir ouvert ce sujet (environ 30 minutes avant maintenant). Bien que ce problème existe depuis 3 mois. Mais je n’ai pas été en mesure de vérifier de manière indépendante si cette « désélection » a pu résoudre le problème d’« indexation Google » ou non.
Je doute que si je ne désactive/bloque pas les sites par Robots.txt, alors TOUS LES SITES SONT AUTORISÉS ? Ou est-ce le contraire, que si je n’autorise pas les sites par Robots.txt, alors tous les sites sont BLOQUÉS de l’indexation ?
J’avais complètement oublié ça. Vous devriez la sélectionner. Si vous ne l’utilisez pas, vous devez vérifier et modifier manuellement le fichier robots.txt pour vous assurer qu’il guide les robots comme vous le souhaitez.
Mais vous pouvez jeter un œil si vous y trouvez quelque chose qui arrêterait Google.
Ok.
Cela signifie que tous les utilisateurs de Discourse (normalement) devraient spécifier/donner un fichier ‘Robots.txt’.
Et donc, je lirai en détail demain le sujet à ce sujet (comment et quoi devrait figurer dans ce fichier).
Deuxièmement, si ce n’est pas trop long à expliquer, pouvez-vous me dire un moyen simple avec lequel je pourrais modifier certains paramètres dans mon panneau d’administration Discourse et en même temps vérifier en direct/en temps réel si Google est maintenant capable d’accéder (puis d’indexer) mon site librement ou s’il reçoit toujours une erreur ‘Accès interdit - 403’ ?!
Edit : Bien que j’essaie moi-même de trouver des ressources similaires sur Google maintenant/plus tard.
Eh bien, non. Cela signifie que normalement les administrateurs gardent robots.txt activé pour éviter les manipulations manuelles Mais bien sûr, la liste des bots bloqués, etc. est ce qu’un administrateur veut modifier.
Ici, j’ai écrit ces deux domaines google et google.com hier, à titre d’expérience, je ne sais pas si cela a la priorité sur ‘Blocked Crawler User Agents’ ou non. Ou si cela a résolu mon problème ou non (car Google dit qu’il a mis en file d’attente ma demande d’exploration/indexation, ce qui pourrait prendre jusqu’à 2-3 jours) :
Mais pour de nombreux autres (petits) problèmes affectant l’indexation par Google, expliqués par moi dans le premier message de ce sujet méta, j’aimerais garder le sujet ouvert.
De plus, je serais obligé si quelqu’un pouvait me dire ce qui se passe si j’ai bloqué le Crawler-1 d’un site sous Agents de robot bloqués et en même temps l’autorisé sous Agents de robot autorisés.
Et si je l’ai autorisé sous Autorisés... mais bloqué via Robots.txt. Qu’est-ce qui a la priorité.
Ah, c’est peut-être pour ça que j’obtiens toujours une erreur en essayant d’explorer/indexer des sujets (sauf la page d’accueil) via la Google Search Console :
Mais pourquoi (même lorsque compatible était bloqué) seule la page d’accueil est-elle disponible pour la Google Search Console, comme indiqué ci-dessous :
Enfin!!! Il semble que j’aie surmonté l’erreur « interdit » pour la page principale/d’accueil et les sujets individuels, avec 90 % d’aide de votre part et 10 % d’expérimentation de mon côté. Un grand merci.
Après avoir supprimé « Compatible » de la liste « Robots bloqués », j’ai trouvé une note sous un autre paramètre, qui, idiot de ma part de l’ignorer, demandait essentiellement aux utilisateurs de ne pas remplir de valeur dans « Agents utilisateur de robot autorisés » à moins d’être sûr de ce que vous faites. C’est donc là que ça se passait ! Ignorer l’avertissement écrit en majuscules m’a valu des mois d’ignorance de mon site par Google et tellement de problèmes :