Pourquoi semrushbot et ahrefsbot sont-ils bloqués par défaut ?

J’ai consulté le rapport de couverture de Google Search Console et constaté que de nombreuses pages de notre forum sont bloquées par le fichier robots.txt. J’ai donc vérifié ce fichier et découvert que semrushbot et ahrefsbot sont bloqués par défaut :

Je sais qu’il s’agit de deux outils SEO très utilisés. Pourquoi bloquer leurs robots ?

Parce que ces robots sont des « gouffres de ressources » qui apportent très peu de valeur aux sites par rapport à la quantité de ressources qu’ils consomment.

Bien sûr, vous pouvez personnaliser le fichier robots.txt de Discourse et les autoriser si vous le souhaitez ; mais nous bloquons ces robots sur nos sites bien avant la sortie de Discourse et nous les maintenons bloqués.

:slight_smile:


Note (Édité) :

J’ai oublié de mentionner que beaucoup de ces « gouffres de ressources » ne respectent pas robots.txt et doivent être bloqués au niveau de l’agent utilisateur HTTP. Nous bloquons ces « gouffres de ressources irrespectueux » avec mod_rewrite au niveau du proxy inverse, d’une manière générale (l’une des nombreuses bonnes raisons d’utiliser un proxy inverse, soit dit en passant).

Merci beaucoup pour ces informations !

J’ai découvert un autre problème et j’aimerais peut-être avoir votre avis là-dessus aussi. :slight_smile:

Je sais que Discourse a bloqué les pages utilisateur par défaut, mais dans mon rapport de couverture de Google Search Console, certaines pages utilisateur sont toujours indexées. C’est un problème aux yeux de Google, car ces pages ne devraient pas être indexées :

Merci !

Cela a été corrigé récemment avec

Pouvez-vous mettre à jour votre Discourse et le re-vérifier ?

@osioke Merci pour votre réponse ! Je pense que notre version installée inclut déjà cette fonctionnalité ? Car j’ai remarqué que la correction avait été commitée en janvier.

Pourriez-vous vérifier s’il est nécessaire de passer à la dernière version pour bénéficier de cette fonctionnalité ?

Cela ne fait pas de mal de mettre à jour, à mon avis, mais oui, cette correction devrait figurer dans votre version installée. Je vous conseillerais de tenter une mise à jour et une nouvelle vérification, sauf si vous ne souhaitez pas mettre à jour pour une autre raison.

Parce qu’ils sont mauvais ? Ils ajoutent beaucoup de charge serveur sans bénéfice discernable, et nos clients ont des limites de vues de page sur leurs formules.

Ça semble bon. Nous procédons à la mise à jour. J’espère que tout fonctionnera correctement après la mise à jour. Je reviens vers vous pour vous tenir informé. :slight_smile: Merci !

Pour clarifier, existe-t-il vraiment aucun moyen de débloquer Semrushbot et SEO Spider ? Nous en avons besoin pour l’audit SEO. Nous avons essayé de les supprimer tous les deux de /admin/customize/robots (nous avons également essayé Allow:), mais nous obtenons une erreur 429 dans Screaming Frog. Ou cette erreur 429 est-elle un problème distinct ? Vos éclaircissements sont grandement appréciés.

Les erreurs 429 signifient que ces robots d’indexation sont soumis à une limitation du débit. Discourse dispose par défaut d’un mécanisme de limitation du débit activé pour prévenir les abus. Vous pouvez en savoir plus à ce sujet ici.

Avez-vous essayé ceci (en utilisant le nom de votre conteneur) ?

Remarque : vous pouvez également configurer cela dans l’interface d’administration :

# docker exec -it socket-only bash
root@socket-only:/# rails c
[1] pry(main)> SiteSetting.blocked_crawler_user_agents
=> "mauibot|semrushbot|ahrefsbot|blexbot|seo spider"
[2] pry(main)> SiteSetting.blocked_crawler_user_agents = ""
=> ""
[3] pry(main)> SiteSetting.blocked_crawler_user_agents
=> ""
[4] pry(main)> 

Voir aussi :

Voir aussi :

  def self.allow_crawler?(user_agent)
    return true if SiteSetting.allowed_crawler_user_agents.blank? &&
      SiteSetting.blocked_crawler_user_agents.blank?
...
...

Vous pouvez constater dans le code que si vous définissez ces deux paramètres du site sur « vide », aucun blocage ne sera appliqué :

  • SiteSetting.allowed_crawler_user_agents
  • SiteSetting.blocked_crawler_user_agents

Je vous recommande de ne pas modifier cela, car ces bots, qui sont bloqués par défaut par le cœur de Discourse, ne respectent pas le fichier robots.txt ; cependant, c’est votre site et vous pouvez faire comme vous le souhaitez. Il y a une bonne raison pour laquelle ils sont bloqués dans le cœur.

Cela dit, Discourse vous donne la possibilité de « débloquer » ces bots en utilisant vos paramètres du site dans l’interface utilisateur.