Por que semrushbot e ahrefsbot são bloqueados por padrão?

Estava verificando o relatório de cobertura do Google Search Console e descobri que muitas páginas do nosso fórum estão bloqueadas pelo robots.txt. Então, verifiquei o arquivo robots.txt. Percebi que o semrushbot e o ahrefsbot estão bloqueados por padrão:

Sei que essas são duas ferramentas de SEO amplamente utilizadas. Por que bloquear seus bots?

Porque esses robôs são “ladrões de recursos” que oferecem muito pouco valor aos sites em comparação com a quantidade de recursos que consomem.

Claro, você pode personalizar o arquivo robots.txt do Discourse e permiti-los, se desejar; mas bloqueamos esses robôs em nossos sites muito antes do lançamento do Discourse e continuamos mantendo-os bloqueados.

:slight_smile:


Nota (Editada):

Esqueci de mencionar que muitos desses “ladrões de recursos” não respeitam o robots.txt e devem ser bloqueados no nível do User Agent HTTP. Bloqueamos esses “ladrões de recursos desrespeitosos” com mod_rewrite no nível do proxy reverso, de modo geral (uma das muitas boas razões para operar atrás de um proxy reverso, aliás).

Muito obrigado pelas informações!

Encontrei outro problema e talvez você possa compartilhar sua opinião sobre isso também. :slight_smile:

Sei que o Discourse bloqueou as páginas de usuário por padrão, mas no meu relatório de cobertura do Google Search Console, ainda há algumas páginas de usuário indexadas, o que é um problema aos olhos do Google, pois todas essas páginas não deveriam ser indexadas:

Obrigado!

Isso foi corrigido recentemente com

Você pode atualizar seu Discourse e revalidar?

@osioke Obrigado pela sua resposta! Acredito que nossa versão instalada já tenha o recurso? Porque notei que a correção foi commitada em janeiro.

Você poderia verificar se preciso atualizar para a versão mais recente para ter esse recurso?

Não faz mal atualizar, na minha opinião, mas sim, essa correção deveria estar na sua versão instalada. Eu tentaria atualizar e revalidar, a menos que você não queira atualizar por algum outro motivo.

Porque são ruins? Elas geram muita carga no servidor sem benefício perceptível, e nossos clientes têm limites de visualizações de página em seus planos.

Parece ótimo. Estamos atualizando agora. Espero que tudo funcione após a atualização. Volto em breve e mantenho você informado. :slight_smile: Obrigado!

Só para esclarecer: não há nenhuma maneira de desbloquear o semrushbot e o SEO Spider? Precisamos deles para a auditoria de SEO. Tentei remover ambos de /admin/customize/robots (também tentei Allow: ), mas recebemos um erro 429 no Screaming Frog. Ou esse erro 429 é um problema separado? Suas opiniões são muito apreciadas.

Erros 429 significam que esses rastreadores estão sendo limitados em taxa. O Discourse possui algum controle de taxa ativado por padrão para prevenir abusos. Você pode ler mais sobre isso aqui.

Você tentou isso (mas use o nome do seu container)?

Nota: você também pode configurar isso na Interface de Administração:

# docker exec -it socket-only bash
root@socket-only:/# rails c
[1] pry(main)> SiteSetting.blocked_crawler_user_agents
=> "mauibot|semrushbot|ahrefsbot|blexbot|seo spider"
[2] pry(main)> SiteSetting.blocked_crawler_user_agents = ""
=> ""
[3] pry(main)> SiteSetting.blocked_crawler_user_agents
=> ""
[4] pry(main)> 

Veja também:

Veja também:

  def self.allow_crawler?(user_agent)
    return true if SiteSetting.allowed_crawler_user_agents.blank? &&
      SiteSetting.blocked_crawler_user_agents.blank?
...
...

Você pode ver pelo código que, se você definir essas duas configurações de site como “vazias”, não haverá bloqueio:

  • SiteSetting.allowed_crawler_user_agents
  • SiteSetting.blocked_crawler_user_agents

Recomendo que você não altere isso, pois esses bots que são bloqueados por padrão pelo núcleo do Discourse não respeitam o robots.txt; no entanto, é o seu site e você pode fazer o que quiser. Há um bom motivo para eles estarem bloqueados no núcleo.

Dito isso, o Discourse oferece a opção de “desbloquear” esses bots usando suas Configurações de Site na interface.