Este guia explica como gerenciar rastreadores da web (web crawlers) em seu site Discourse.
Nível de usuário necessário: Administrador
Os rastreadores da web podem impactar significativamente o desempenho do seu site, aumentando as visualizações de página e a carga do servidor.
Quando um site nota um pico em suas visualizações de página, é importante verificar como os rastreadores da web se encaixam nessa contagem.
Verificando a atividade do rastreador
Para ver se os rastreadores estão afetando seu site, navegue até o relatório Tráfego do Site (/admin/reports/site_traffic) no seu painel de administração. Este relatório detalha os números de visualizações de página de usuários de navegador logados, usuários de navegador anônimos, rastreadores e outras fontes.
Um site onde os rastreadores funcionam normalmente:
Um site onde os rastreadores estão fora de controle:
Identificando rastreadores específicos
Acesse o relatório User Agent do Web Crawler (/admin/reports/web_crawlers) para encontrar uma lista de nomes de rastreadores da web classificados por contagem de visualizações de página.
Quando um rastreador da web problemático acessa o site, o número de suas visualizações de página será muito maior do que o dos outros rastreadores da web. Observe que pode haver vários rastreadores da web maliciosos em atividade ao mesmo tempo.
Bloqueando e limitando rastreadores
É um bom hábito não bloquear os rastreadores dos principais mecanismos de busca, como Google, Bing, Baidu (chinês), Yandex (russo), Naver (coreano), DuckDuckGo, Yahoo e outros, dependendo do seu país.
Quando um rastreador da web está fora de controle, há uma boa chance de que o mesmo rastreador tenha atingido outros sites e alguém já tenha solicitado informações ou criado relatórios sobre ele que serão úteis para entender se deve limitar ou bloquear aquele rastreador em particular.
Observe que alguns rastreadores podem contribuir com um grande número de visualizações de página se você usar serviços de terceiros para monitorar ou adicionar funcionalidade ao seu site por meio de scripts, etc.
Para obter um registro de rastreadores da web não confiáveis, você pode consultar esta lista: \u003chttps://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt\u003e
Ajustando as configurações do rastreador
Em Admin \u003e Configurações, existem algumas configurações que podem ajudar a limitar a taxa de rastreadores específicos:
-
Diminuir a velocidade dos rastreadores usando:
slow down crawler user agents(diminuir a velocidade dos agentes de usuário de rastreadores) — por padrão, isso incluigptbot,claudebot,anthropic-aiebrightbotslow down crawler rate(taxa de diminuição da velocidade do rastreador) — o número de segundos entre as solicitações permitidas por rastreador (padrão: 60)
-
Bloquear rastreadores com:
blocked crawler user agents(agentes de usuário de rastreadores bloqueados) — por padrão, isso incluimauibot,semrushbot,ahrefsbot,blexboteseo spider
-
Permitir apenas rastreadores específicos com:
allowed crawler user agents(agentes de usuário de rastreadores permitidos) — quando configurado, somente os rastreadores listados terão permissão para acessar o site; todos os outros serão bloqueados. Isso funciona como uma lista de permissões rigorosa. Aviso: definir isso substituiráblocked crawler user agentse bloqueará todos os rastreadores que não estão na lista, incluindo os principais mecanismos de busca, se não estiverem incluídos.
Certifique-se de saber o nome exato do agente de usuário para os rastreadores que deseja controlar. Se você ajustar alguma das configurações acima e não vir uma redução nas visualizações de página desse agente, talvez queira verificar novamente se está usando o nome correto.
Na dúvida sobre como agir, comece sempre com a opção “diminuir a velocidade” em vez de um bloqueio total. Verifique ao longo do tempo se há melhorias. Você pode prosseguir com um bloqueio total se não notar resultados apreciáveis.

