Estava verificando o relatório de cobertura do Google Search Console e descobri que muitas páginas do nosso fórum estão bloqueadas pelo robots.txt. Então, verifiquei o arquivo robots.txt. Percebi que o semrushbot e o ahrefsbot estão bloqueados por padrão:
Porque esses robôs são “ladrões de recursos” que oferecem muito pouco valor aos sites em comparação com a quantidade de recursos que consomem.
Claro, você pode personalizar o arquivo robots.txt do Discourse e permiti-los, se desejar; mas bloqueamos esses robôs em nossos sites muito antes do lançamento do Discourse e continuamos mantendo-os bloqueados.
Nota (Editada):
Esqueci de mencionar que muitos desses “ladrões de recursos” não respeitam o robots.txt e devem ser bloqueados no nível do User Agent HTTP. Bloqueamos esses “ladrões de recursos desrespeitosos” com mod_rewrite no nível do proxy reverso, de modo geral (uma das muitas boas razões para operar atrás de um proxy reverso, aliás).
Encontrei outro problema e talvez você possa compartilhar sua opinião sobre isso também.
Sei que o Discourse bloqueou as páginas de usuário por padrão, mas no meu relatório de cobertura do Google Search Console, ainda há algumas páginas de usuário indexadas, o que é um problema aos olhos do Google, pois todas essas páginas não deveriam ser indexadas:
Não faz mal atualizar, na minha opinião, mas sim, essa correção deveria estar na sua versão instalada. Eu tentaria atualizar e revalidar, a menos que você não queira atualizar por algum outro motivo.
Porque são ruins? Elas geram muita carga no servidor sem benefício perceptível, e nossos clientes têm limites de visualizações de página em seus planos.
Só para esclarecer: não há nenhuma maneira de desbloquear o semrushbot e o SEO Spider? Precisamos deles para a auditoria de SEO. Tentei remover ambos de /admin/customize/robots (também tentei Allow: ), mas recebemos um erro 429 no Screaming Frog. Ou esse erro 429 é um problema separado? Suas opiniões são muito apreciadas.
Erros 429 significam que esses rastreadores estão sendo limitados em taxa. O Discourse possui algum controle de taxa ativado por padrão para prevenir abusos. Você pode ler mais sobre isso aqui.
def self.allow_crawler?(user_agent)
return true if SiteSetting.allowed_crawler_user_agents.blank? &&
SiteSetting.blocked_crawler_user_agents.blank?
...
...
Você pode ver pelo código que, se você definir essas duas configurações de site como “vazias”, não haverá bloqueio:
SiteSetting.allowed_crawler_user_agents
SiteSetting.blocked_crawler_user_agents
Recomendo que você não altere isso, pois esses bots que são bloqueados por padrão pelo núcleo do Discourse não respeitam o robots.txt; no entanto, é o seu site e você pode fazer o que quiser. Há um bom motivo para eles estarem bloqueados no núcleo.
Dito isso, o Discourse oferece a opção de “desbloquear” esses bots usando suas Configurações de Site na interface.