Este guia explica como gerenciar rastreadores da web em seu site Discourse.
Nível de usuário necessário: Administrador
Rastreadores da web podem impactar significativamente o desempenho do seu site, aumentando as visualizações de página e a carga do servidor.
Quando um site percebe um pico em suas visualizações de página, é importante verificar como os rastreadores da web se encaixam nesse cenário.
Verificando a atividade de rastreadores
Para ver se os rastreadores estão afetando seu site, navegue até o relatório Visualizações de Página Consolidadas (/admin/reports/consolidated_page_views) no seu painel de administração. Este relatório detalha os números de visualizações de página de usuários logados, usuários anônimos e rastreadores.
Um site onde os rastreadores funcionam normalmente:
Um site onde os rastreadores estão fora de controle:
Identificando rastreadores específicos
Acesse o relatório User Agent do Rastreador da Web (/admin/reports/web_crawlers) para encontrar uma lista de nomes de rastreadores da web ordenados por contagem de visualizações de página.
Quando um rastreador da web problemático atinge o site, o número de suas visualizações de página será muito maior do que o de outros rastreadores da web. Observe que pode haver um número de rastreadores da web maliciosos em operação ao mesmo tempo.
Bloqueando e limitando rastreadores
É um bom hábito não bloquear os rastreadores dos principais mecanismos de busca, como Google, Bing, Baidu (chinês), Yandex (russo), Naver (coreano), DuckDuckGo, Yahoo e outros, com base no seu país.
Quando um rastreador da web está fora de controle, há uma boa chance de que o mesmo rastreador tenha atingido outros sites e alguém já tenha solicitado informações ou criado relatórios sobre ele que serão úteis para entender se deve limitar ou bloquear esse rastreador específico.
Observe que alguns rastreadores podem contribuir com um grande número de visualizações de página se você usar serviços de terceiros para monitorar ou adicionar funcionalidades ao seu site por meio de scripts, etc.
Para obter um registro de rastreadores da web não confiáveis, você pode consultar esta lista, https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
Ajustando as configurações do rastreador
Em Admin > Configurações, existem algumas configurações que podem ajudar a limitar a taxa de rastreadores específicos:
-
Acelerar rastreadores usando:
slow down crawler user agentsslow down crawler rate
-
Bloquear rastreadores com:
blocked crawler user agents
Certifique-se de saber o nome exato do user agent para os rastreadores que você deseja controlar. Se você ajustar alguma das configurações acima e não notar uma redução nas visualizações de página desse agente, talvez queira verificar novamente se está usando o nome correto.
Em caso de dúvida sobre como agir, sempre comece com a opção “acelerar” em vez de um bloqueio total. Verifique ao longo do tempo se há melhorias. Você pode prosseguir com um bloqueio total se não notar resultados apreciáveis.


