J’ai consulté le rapport de couverture de Google Search Console et constaté que de nombreuses pages de notre forum sont bloquées par le fichier robots.txt. J’ai donc vérifié ce fichier et découvert que semrushbot et ahrefsbot sont bloqués par défaut :
Parce que ces robots sont des « gouffres de ressources » qui apportent très peu de valeur aux sites par rapport à la quantité de ressources qu’ils consomment.
Bien sûr, vous pouvez personnaliser le fichier robots.txt de Discourse et les autoriser si vous le souhaitez ; mais nous bloquons ces robots sur nos sites bien avant la sortie de Discourse et nous les maintenons bloqués.
Note (Édité) :
J’ai oublié de mentionner que beaucoup de ces « gouffres de ressources » ne respectent pas robots.txt et doivent être bloqués au niveau de l’agent utilisateur HTTP. Nous bloquons ces « gouffres de ressources irrespectueux » avec mod_rewrite au niveau du proxy inverse, d’une manière générale (l’une des nombreuses bonnes raisons d’utiliser un proxy inverse, soit dit en passant).
J’ai découvert un autre problème et j’aimerais peut-être avoir votre avis là-dessus aussi.
Je sais que Discourse a bloqué les pages utilisateur par défaut, mais dans mon rapport de couverture de Google Search Console, certaines pages utilisateur sont toujours indexées. C’est un problème aux yeux de Google, car ces pages ne devraient pas être indexées :
@osioke Merci pour votre réponse ! Je pense que notre version installée inclut déjà cette fonctionnalité ? Car j’ai remarqué que la correction avait été commitée en janvier.
Cela ne fait pas de mal de mettre à jour, à mon avis, mais oui, cette correction devrait figurer dans votre version installée. Je vous conseillerais de tenter une mise à jour et une nouvelle vérification, sauf si vous ne souhaitez pas mettre à jour pour une autre raison.
Parce qu’ils sont mauvais ? Ils ajoutent beaucoup de charge serveur sans bénéfice discernable, et nos clients ont des limites de vues de page sur leurs formules.
Ça semble bon. Nous procédons à la mise à jour. J’espère que tout fonctionnera correctement après la mise à jour. Je reviens vers vous pour vous tenir informé. Merci !
Pour clarifier, existe-t-il vraiment aucun moyen de débloquer Semrushbot et SEO Spider ? Nous en avons besoin pour l’audit SEO. Nous avons essayé de les supprimer tous les deux de /admin/customize/robots (nous avons également essayé Allow:), mais nous obtenons une erreur 429 dans Screaming Frog. Ou cette erreur 429 est-elle un problème distinct ? Vos éclaircissements sont grandement appréciés.
Les erreurs 429 signifient que ces robots d’indexation sont soumis à une limitation du débit. Discourse dispose par défaut d’un mécanisme de limitation du débit activé pour prévenir les abus. Vous pouvez en savoir plus à ce sujet ici.
def self.allow_crawler?(user_agent)
return true if SiteSetting.allowed_crawler_user_agents.blank? &&
SiteSetting.blocked_crawler_user_agents.blank?
...
...
Vous pouvez constater dans le code que si vous définissez ces deux paramètres du site sur « vide », aucun blocage ne sera appliqué :
SiteSetting.allowed_crawler_user_agents
SiteSetting.blocked_crawler_user_agents
Je vous recommande de ne pas modifier cela, car ces bots, qui sont bloqués par défaut par le cœur de Discourse, ne respectent pas le fichier robots.txt ; cependant, c’est votre site et vous pouvez faire comme vous le souhaitez. Il y a une bonne raison pour laquelle ils sont bloqués dans le cœur.
Cela dit, Discourse vous donne la possibilité de « débloquer » ces bots en utilisant vos paramètres du site dans l’interface utilisateur.