Controlando Web Crawlers Para um Site

:bookmark: Este guia explica como gerenciar rastreadores da web (web crawlers) em seu site Discourse.

:person_raising_hand: Nível de usuário necessário: Administrador

Os rastreadores da web podem impactar significativamente o desempenho do seu site, aumentando as visualizações de página e a carga do servidor.

Quando um site nota um pico em suas visualizações de página, é importante verificar como os rastreadores da web se encaixam nessa contagem.


Verificando a atividade do rastreador

Para ver se os rastreadores estão afetando seu site, navegue até o relatório Tráfego do Site (/admin/reports/site_traffic) no seu painel de administração. Este relatório detalha os números de visualizações de página de usuários de navegador logados, usuários de navegador anônimos, rastreadores e outras fontes.

Um site onde os rastreadores funcionam normalmente:

Um site onde os rastreadores estão fora de controle:

Identificando rastreadores específicos

Acesse o relatório User Agent do Web Crawler (/admin/reports/web_crawlers) para encontrar uma lista de nomes de rastreadores da web classificados por contagem de visualizações de página.

Quando um rastreador da web problemático acessa o site, o número de suas visualizações de página será muito maior do que o dos outros rastreadores da web. Observe que pode haver vários rastreadores da web maliciosos em atividade ao mesmo tempo.

Bloqueando e limitando rastreadores

É um bom hábito não bloquear os rastreadores dos principais mecanismos de busca, como Google, Bing, Baidu (chinês), Yandex (russo), Naver (coreano), DuckDuckGo, Yahoo e outros, dependendo do seu país.

Quando um rastreador da web está fora de controle, há uma boa chance de que o mesmo rastreador tenha atingido outros sites e alguém já tenha solicitado informações ou criado relatórios sobre ele que serão úteis para entender se deve limitar ou bloquear aquele rastreador em particular.

Observe que alguns rastreadores podem contribuir com um grande número de visualizações de página se você usar serviços de terceiros para monitorar ou adicionar funcionalidade ao seu site por meio de scripts, etc.

Para obter um registro de rastreadores da web não confiáveis, você pode consultar esta lista: \u003chttps://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt\u003e

Ajustando as configurações do rastreador

Em Admin \u003e Configurações, existem algumas configurações que podem ajudar a limitar a taxa de rastreadores específicos:

  • Diminuir a velocidade dos rastreadores usando:

    • slow down crawler user agents (diminuir a velocidade dos agentes de usuário de rastreadores) — por padrão, isso inclui gptbot, claudebot, anthropic-ai e brightbot
    • slow down crawler rate (taxa de diminuição da velocidade do rastreador) — o número de segundos entre as solicitações permitidas por rastreador (padrão: 60)
  • Bloquear rastreadores com:

    • blocked crawler user agents (agentes de usuário de rastreadores bloqueados) — por padrão, isso inclui mauibot, semrushbot, ahrefsbot, blexbot e seo spider
  • Permitir apenas rastreadores específicos com:

    • allowed crawler user agents (agentes de usuário de rastreadores permitidos) — quando configurado, somente os rastreadores listados terão permissão para acessar o site; todos os outros serão bloqueados. Isso funciona como uma lista de permissões rigorosa. Aviso: definir isso substituirá blocked crawler user agents e bloqueará todos os rastreadores que não estão na lista, incluindo os principais mecanismos de busca, se não estiverem incluídos.

Certifique-se de saber o nome exato do agente de usuário para os rastreadores que deseja controlar. Se você ajustar alguma das configurações acima e não vir uma redução nas visualizações de página desse agente, talvez queira verificar novamente se está usando o nome correto.

Na dúvida sobre como agir, comece sempre com a opção “diminuir a velocidade” em vez de um bloqueio total. Verifique ao longo do tempo se há melhorias. Você pode prosseguir com um bloqueio total se não notar resultados apreciáveis.

17 curtidas