Como investigar tráfego de bots usando Google Analytics

Investigar tráfego suspeito de bots usando o Google Analytics

Este guia fornece um processo passo a passo para usar o Google Analytics 4 (GA4) para ajudar a identificar e investigar atividades suspeitas de bots.

1. Entendendo a filtragem padrão de bots do GA4

O GA4 exclui automaticamente o tráfego de bots e spiders conhecidos por padrão.[1] Essa filtragem é baseada na pesquisa do Google e na International Spiders & Bots List da IAB.

As etapas deste guia destinam-se a ajudá-lo a identificar bots mais sofisticados ou desconhecidos que podem não estar nesta lista.

2. Analisar o tráfego para padrões incomuns

Os bots frequentemente geram tráfego que se desvia significativamente dos seus padrões típicos de usuários.

Passos:

  1. Verificar Relatórios em Tempo Real:

    • Vá para Relatórios > Páginas em Tempo Real. Procure por picos súbitos e inexplicáveis em “Usuários ativos nos últimos 30 minutos”. Isso pode ser o primeiro sinal de um aumento de bots ativos.

    :warning: Se você acha que seu site está sob ataque de spam, use nosso guia em Immediate actions you can take during a spam attack

  2. Investigar a localização geográfica:

    • Vá para Relatórios > Demografia > Usuário > Atributos do usuário > Detalhes demográficos.

    • O gráfico padrão exibido deve ser Detalhes demográficos: País. Procure por um alto número de usuários de países que você não tem como alvo, onde não possui presença comercial ou onde normalmente não recebe muito tráfego. Um aumento súbito de uma única localização inesperada é um grande sinal de alerta.

  3. Analisar fontes de tráfego para spam de referência:

    • Vá para Relatórios > Aquisição > Aquisição de tráfego.

    • O relatório padrão é “Grupo de canal padrão da sessão”. Clique na seta suspensa ao lado da dimensão primária e selecione Origem / meio da sessão. Analise fontes de referência suspeitas ou sem sentido (por exemplo, "free-traffic-seo.com," "buttons-for-your-website.com"). Estes são sinais clássicos de spam de referência[2].

3. Examinar métricas de comportamento do usuário

As métricas comportamentais podem ser a ferramenta mais forte do GA4 para separar usuários humanos de bots.

Passos:

  1. Procurar por tempo de engajamento baixo:

    • Vá para Relatórios > Engajamento > Páginas e telas.

    :information_source: No GA4, a Taxa de engajamento é a porcentagem de sessões que duraram mais de 10 segundos, tiveram um evento de conversão ou tiveram pelo menos 2 visualizações de página. Esta é uma visão mais nuances da sessão em comparação com sua medição anterior de “taxa de rejeição”.

    • A métrica Tempo médio de engajamento mostra por quanto tempo seu site ficou em primeiro plano para os usuários. Os bots geralmente passam muito pouco tempo em uma página. Classifique a tabela por “Tempo médio de engajamento” (crescente) para encontrar páginas com engajamento incomumente baixo, apesar de visualizações significativas.

    • Procure por páginas com muitas “Visualizações”, mas uma “Taxa de engajamento” muito baixa. Isso indica que os usuários estão chegando à página e saindo imediatamente, um comportamento comum de bots.

    :information_source: Se você não vir a coluna “Taxa de engajamento”, precisará adicioná-la. Clique no ícone de lápis (Personalizar relatório) no canto superior direito, selecione “Métricas” e adicione “Taxa de engajamento” ao relatório. Lembre-se de salvar suas alterações.

  2. Verificar páginas de destino:

    • Vá para Relatórios > Engajamento > Página de destino.

    • Na navegação à esquerda, vá para Relatórios > Engajamento > Página de destino. Procure por páginas com um alto número de Novos usuários, mas um Tempo médio de engajamento extremamente baixo. Esse padrão sugere tráfego automatizado atingindo pontos de entrada específicos em seu site e saindo imediatamente.

4. O que o Google Analytics não pode dizer :frowning:

  • Endereços IP: Assim como o Google Search Console, o Google Analytics não relata endereços IP de usuários. Essas informações só podem ser encontradas nos seus logs do servidor. Analisar logs do servidor é crítico para bloquear IPs maliciosos.

Conclusão

Embora o Google Analytics possa ser útil na identificação de padrões de tráfego suspeitos, para desacelerar ou bloquear rastreadores indesejados em um fórum Discourse, você precisará ajustar algumas configurações de rastreador encontradas em Admin > Config > Segurança.

O Discourse já bloqueia vários rastreadores agressivos por padrão (mauibot, semrushbot, ahrefsbot, blexbot, seo spider) através da configuração Blocked crawler user agents. Para bots adicionais que você escolher bloquear completamente, adicione seu user agent a esta lista.

Para bots menos agressivos, mas ainda intensivos em recursos, você pode adicioná-los a Slow down crawler user agents para reduzir sua velocidade de rastreamento sem bloqueá-los completamente. Por padrão, isso já limita a taxa de bots de IA comuns (gptbot, claudebot, anthropic-ai, brightbot). Você pode gerenciar a taxa de desaceleração através da configuração do site Slow down crawler rate, que controla o número de segundos entre as solicitações permitidas (padrão: 60 segundos).

Também há uma configuração Allowed crawler user agents, que atua como uma lista de permissões estrita. Se você adicionar qualquer user agent a esta lista, todos os outros rastreadores serão bloqueados. Use isso apenas se quiser restringir seu site a um conjunto específico de rastreadores.

:warning: Tenha muito cuidado ao fazer ajustes nessas configurações. Por exemplo, alguns proprietários de sites bloquearam acidentalmente todo o tráfego de motores de busca legítimos ao configurar incorretamente essa configuração.

Finalmente, lembre-se de que essas medidas não são infalíveis. Os rastreadores estão em constante evolução e podem não ser bem-comportados; eles podem alterar suas strings de user agent ou distribuir solicitações em vários endereços IP para contornar esses limites. Portanto, embora essas configurações possam fornecer uma forte primeira linha de defesa, você deve continuar monitorando seus análises e logs do servidor em busca de novos ou padrões incomuns.


  1. Known bot-traffic exclusion - Analytics Help ↩︎

  2. Referrer spam - Wikipedia ↩︎