robots.txt mal formé causant des problèmes d'indexation

Bonjour à tous,

Nous venons de réaliser que notre forum Discourse n’est pas indexé par Google (nous nous souvenons qu’il l’était il y a environ un an), et nous essayons de régler le problème dès maintenant. Quelles configurations devons-nous nous assurer de paramétrer correctement ?

Voici ce que j’ai fait jusqu’à présent :

  1. J’ai vérifié que l’option “autoriser l’indexation dans le fichier robots.txt” est cochée.

  2. J’ai ajouté les domaines suivants à la liste “exclure les domaines rel nofollow” :

    • grakn.ai (notre domaine principal)
    • discuss.grakn.ai (notre domaine de forum Discourse)
  3. J’ai vérifié que l’option “ajouter rel nofollow au contenu des utilisateurs” est décochée.

  4. J’ai ajouté Googlebot à la liste des “agents utilisateur de robots blancs autorisés”.

Est-ce que je manque d’autres configurations à paramétrer ?

Notre Google Search Console indique que discuss.grakn.ai ne peut toujours pas être exploré car il est bloqué par robots.txt – voir capture d’écran ci-dessous.

Merci d’avance pour votre aide !!!

Admin → Paramètres → Activer Robots.txt

Votre fichier Forum Roboy est autorisé : https://discuss.grakn.ai/robots.txt

Connectez-vous à Google Search Console et vérifiez : https://www.google.com/webmasters/tools/robots-testing-tool

Avec les paramètres par défaut, cela fonctionne parfaitement. Avez-vous modifié ces paramètres lors de l’installation initiale ?

Le fichier robots.txt contient ce texte au milieu, ce qui pourrait poser problème aux robots d’exploration :

User-agent: *
Disallow: /
Noindex: /

Cependant, Google indexe tout de même les pages :

Il est possible que Googlebot consulte vos règles spécifiques à Google et que Webmaster Tools vous alerte concernant le caractère générique.

(Je ne suis pas sûr de quels paramètres génèrent cette sortie de robots.txt.)

Oui.

  1. Accédez à : https://discuss.grakn.ai/admin/customize/robots

  2. Supprimez :

    User-agent: *
    Disallow: /
    Noindex: /

  3. Rendez-vous sur Google Webmaster Tools : https://www.google.com/webmasters/tools/robots-testing-tool

Sélectionnez une propriété vérifiée et renvoyez le fichier robots.txt à Google.

Je pense que cela devrait fonctionner.

Enfin, la suppression du bloc suivant a résolu le problème.

User-agent: *
Disallow: /
Noindex: /

Merci beaucoup, @j127 et @tohaitrieu !!!

Google Search Console indique maintenant que discuss.grakn.ai est en file d’attente pour l’indexation.

Salutations !

Je ne comprends pas très bien comment vous en êtes arrivé à cet état. Avez-vous modifié les paramètres par défaut du site liés à l’exploration ?

Je ne comprends pas non plus comment nous en sommes arrivés à l’état ci-dessus, @codinghorror. J’ai été l’administrateur du site au cours de la dernière année et je n’ai rien modifié concernant les éléments mentionnés ci-dessus. Je me souviens de ne pas avoir effectué de mise à jour depuis très longtemps, puis d’en avoir fait une peu avant que le problème ci-dessus ne commence à se produire, mais je ne sais pas si cela y est lié.