Por que semrushbot e ahrefsbot são bloqueados por padrão?

Jamie_Liu1 · Julho 14, 2020, 8:57am

Estava verificando o relatório de cobertura do Google Search Console e descobri que muitas páginas do nosso fórum estão bloqueadas pelo robots.txt. Então, verifiquei o arquivo robots.txt. Percebi que o semrushbot e o ahrefsbot estão bloqueados por padrão:

Sei que essas são duas ferramentas de SEO amplamente utilizadas. Por que bloquear seus bots?

neounix · Julho 14, 2020, 9:03am

Porque esses robôs são “ladrões de recursos” que oferecem muito pouco valor aos sites em comparação com a quantidade de recursos que consomem.

Claro, você pode personalizar o arquivo robots.txt do Discourse e permiti-los, se desejar; mas bloqueamos esses robôs em nossos sites muito antes do lançamento do Discourse e continuamos mantendo-os bloqueados.

Nota (Editada):

Esqueci de mencionar que muitos desses “ladrões de recursos” não respeitam o robots.txt e devem ser bloqueados no nível do User Agent HTTP. Bloqueamos esses “ladrões de recursos desrespeitosos” com mod_rewrite no nível do proxy reverso, de modo geral (uma das muitas boas razões para operar atrás de um proxy reverso, aliás).

Jamie_Liu1 · Julho 14, 2020, 9:29am

Muito obrigado pelas informações!

Encontrei outro problema e talvez você possa compartilhar sua opinião sobre isso também.

Sei que o Discourse bloqueou as páginas de usuário por padrão, mas no meu relatório de cobertura do Google Search Console, ainda há algumas páginas de usuário indexadas, o que é um problema aos olhos do Google, pois todas essas páginas não deveriam ser indexadas:

Obrigado!

osioke · Julho 14, 2020, 12:35pm

Isso foi corrigido recentemente com

Você pode atualizar seu Discourse e revalidar?

Jamie_Liu1 · Julho 15, 2020, 2:14am

@osioke Obrigado pela sua resposta! Acredito que nossa versão instalada já tenha o recurso? Porque notei que a correção foi commitada em janeiro.

Você poderia verificar se preciso atualizar para a versão mais recente para ter esse recurso?

osioke · Julho 15, 2020, 7:03am

Não faz mal atualizar, na minha opinião, mas sim, essa correção deveria estar na sua versão instalada. Eu tentaria atualizar e revalidar, a menos que você não queira atualizar por algum outro motivo.

codinghorror · Julho 15, 2020, 9:41pm

Porque são ruins? Elas geram muita carga no servidor sem benefício perceptível, e nossos clientes têm limites de visualizações de página em seus planos.

Jamie_Liu1 · Julho 16, 2020, 2:13am

Parece ótimo. Estamos atualizando agora. Espero que tudo funcione após a atualização. Volto em breve e mantenho você informado. Obrigado!

trying2survive · Dezembro 2, 2020, 3:30pm

Só para esclarecer: não há nenhuma maneira de desbloquear o semrushbot e o SEO Spider? Precisamos deles para a auditoria de SEO. Tentei remover ambos de /admin/customize/robots (também tentei Allow: ), mas recebemos um erro 429 no Screaming Frog. Ou esse erro 429 é um problema separado? Suas opiniões são muito apreciadas.

Johani · Dezembro 2, 2020, 4:34pm

Erros 429 significam que esses rastreadores estão sendo limitados em taxa. O Discourse possui algum controle de taxa ativado por padrão para prevenir abusos. Você pode ler mais sobre isso aqui.

neounix · Dezembro 3, 2020, 9:35am

Você tentou isso (mas use o nome do seu container)?

Nota: você também pode configurar isso na Interface de Administração:

# docker exec -it socket-only bash
root@socket-only:/# rails c
[1] pry(main)> SiteSetting.blocked_crawler_user_agents
=> "mauibot|semrushbot|ahrefsbot|blexbot|seo spider"
[2] pry(main)> SiteSetting.blocked_crawler_user_agents = ""
=> ""
[3] pry(main)> SiteSetting.blocked_crawler_user_agents
=> ""
[4] pry(main)>

Veja também:

github.com/discourse/discourse

config/site_settings.yml

d1d87b6fa

# Available options:
#
# default            - The default value of the setting. For upload site settings, use the id of the upload seeded in db/fixtures/010_uploads.rb.
# client             - Set to true if the javascript should have access to this setting's value.
# refresh            - Set to true if clients should refresh when the setting is changed.
# min                - For a string setting, the minimum length. For an integer setting, the minimum value.
# max                - For a string setting, the maximum length. For an integer setting, the maximum value.
# regex              - A regex that the value must match.
# validator          - The name of the class that will be use to validate the value of the setting.
# allow_any          - For choice settings allow items not specified in the choice list (default true)
# secret             - Set to true if input type should be password and value needs to be scrubbed from logs (default false).
# enum               - The setting has a fixed set of allowed values, and only one can be chosen.
#                      Set to the class name that defines the set.
# locale_default     - A hash which overrides according to `SiteSetting.default_locale`.
#                      The key should be as the same as possible value of default_locale.
#
#
# type: email    - Must be a valid email address.
# type: username - Must match the username of an existing user.
# type: list     - A list of values, chosen from a set of valid values defined in the choices option.

This file has been truncated. show original

Veja também:

  def self.allow_crawler?(user_agent)
    return true if SiteSetting.allowed_crawler_user_agents.blank? &&
      SiteSetting.blocked_crawler_user_agents.blank?
...
...

github.com/discourse/discourse

lib/crawler_detection.rb

e0d923225

# frozen_string_literal: true

module CrawlerDetection
  WAYBACK_MACHINE_URL = "archive.org"

  def self.to_matcher(string, type: nil)
    escaped = string.split('|').map { |agent| Regexp.escape(agent) }.join('|')

    if type == :real && Rails.env == "test"
      # we need this bypass so we properly render views
      escaped << "|Rails Testing"
    end

    Regexp.new(escaped, Regexp::IGNORECASE)
  end

  def self.crawler?(user_agent, via_header = nil)
    return true if user_agent.nil? || user_agent&.include?(WAYBACK_MACHINE_URL) || via_header&.include?(WAYBACK_MACHINE_URL)

    # this is done to avoid regenerating regexes

This file has been truncated. show original

Você pode ver pelo código que, se você definir essas duas configurações de site como “vazias”, não haverá bloqueio:

SiteSetting.allowed_crawler_user_agents
SiteSetting.blocked_crawler_user_agents

Recomendo que você não altere isso, pois esses bots que são bloqueados por padrão pelo núcleo do Discourse não respeitam o robots.txt; no entanto, é o seu site e você pode fazer o que quiser. Há um bom motivo para eles estarem bloqueados no núcleo.

Dito isso, o Discourse oferece a opção de “desbloquear” esses bots usando suas Configurações de Site na interface.

Tópico		Respostas	Visualizações
Handling Bingbot Feature	29	7516	20 de Novembro de 2020
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4702	2 de Dezembro de 2023
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	253	18 de Dezembro de 2024
Why there are lots of Disallow rule in robots.txt? Support	34	4666	22 de Dezembro de 2020
How to protect myself from bots crawling my Discourse instance? Support	6	1638	17 de Janeiro de 2022

Por que semrushbot e ahrefsbot são bloqueados por padrão?

Tópicos relacionados