Investigar el tráfico de bots sospechoso usando Google Analytics
Esta guía proporciona un proceso paso a paso para usar Google Analytics 4 (GA4) y ayudar a identificar e investigar la actividad sospechosa de bots.
1. Comprender el filtrado predeterminado de bots de GA4
GA4 excluye automáticamente el tráfico de bots y arañas conocidos de forma predeterminada.[1] Este filtrado se basa en la investigación de Google y en la Lista Internacional de Arañas y Bots de la IAB.
Los pasos de esta guía tienen como objetivo ayudarle a identificar bots más sofisticados o desconocidos que podrían no estar en esta lista.
2. Analizar el tráfico en busca de patrones inusuales
Los bots a menudo generan tráfico que se desvía significativamente de sus patrones de usuarios típicos.
Pasos:
-
Verificar los informes en tiempo real:
- Vaya a Informes > Páginas en tiempo real. Busque picos repentinos e inexplicables en “Usuarios activos en los últimos 30 minutos”. Esto puede ser el primer signo de un aumento de actividad de bots.
Si cree que su sitio está bajo un ataque de spam, utilice nuestra guía en Immediate actions you can take during a spam attack -
Investigar la ubicación geográfica:
-
Vaya a Informes > Demografía > Usuario > Atributos del usuario > Detalles demográficos.
-
El gráfico predeterminado mostrado debe ser Detalles demográficos: País. Busque un alto número de usuarios de países que no tiene como objetivo, donde no tiene presencia comercial o donde generalmente no ha recibido mucho tráfico. Un aumento repentino desde una ubicación única e inesperada es una gran señal de alerta.
-
-
Analizar las fuentes de tráfico en busca de spam de referencia:
-
Vaya a Informes > Adquisición > Adquisición de tráfico.
-
El informe predetermina el “Grupo de canales predeterminado de la sesión”. Haga clic en la flecha desplegable junto a la dimensión principal y seleccione Fuente/medio de la sesión. Escanee en busca de fuentes de referencia sospechosas o sin sentido (por ejemplo,
\"free-traffic-seo.com,\"\"buttons-for-your-website.com\"). Estos son signos clásicos de spam de referencia[2].
-
3. Examinar las métricas de comportamiento del usuario
Las métricas de comportamiento pueden ser la herramienta más fuerte de GA4 para separar a los usuarios humanos de los bots.
Pasos:
-
Buscar un tiempo de participación bajo:
- Vaya a Informes > Participación > Páginas y pantallas.
En GA4, la Tasa de participación es el porcentaje de sesiones que duraron más de 10 segundos, tuvieron un evento de conversión o tuvieron al menos 2 visualizaciones de página. Esta es una visión más matizada de la sesión que su anterior medición de “tasa de rebote”.-
La métrica Tiempo promedio de participación muestra cuánto tiempo estuvo su sitio en primer plano para los usuarios. Los bots suelen pasar muy poco tiempo en una página. Ordene la tabla por “Tiempo promedio de participación” (ascendente) para encontrar páginas con una participación inusualmente baja a pesar de tener muchas visualizaciones.
-
Busque páginas con muchas “Visualizaciones” pero una “Tasa de participación” muy baja. Esto indica que los usuarios aterrizan en la página y se van inmediatamente, un comportamiento común de los bots.
Si no ve la columna “Tasa de participación”, deberá agregarla. Haga clic en el icono del lápiz (Personalizar informe) en la esquina superior derecha, seleccione “Métricas” y agregue “Tasa de participación” al informe. Recuerde guardar sus cambios. -
Verificar las páginas de aterrizaje:
-
Vaya a Informes > Participación > Página de aterrizaje.
-
En la navegación izquierda, vaya a Informes > Participación > Página de aterrizaje. Busque páginas con un alto número de Usuarios nuevos pero un Tiempo promedio de participación extremadamente bajo. Este patrón sugiere tráfico automatizado que golpea puntos de entrada específicos de su sitio y se va de inmediato.
-
4. Lo que Google Analytics no puede decirle 
- Direcciones IP: Al igual que Google Search Console, Google Analytics no informa sobre las direcciones IP de los usuarios. Esta información solo se puede encontrar en sus registros del servidor. El análisis de los registros del servidor es fundamental para bloquear IPs maliciosas.
Conclusión
Aunque Google Analytics puede ser útil para identificar patrones de tráfico sospechosos, para ralentizar o bloquear rastreadores no deseados en un foro de Discourse, deberá ajustar algunos de los ajustes del rastreador que se encuentran en Administrador > Configuración > Seguridad.
Discourse ya bloquea varios rastreadores agresivos de forma predeterminada (mauibot, semrushbot, ahrefsbot, blexbot, seo spider) a través de la configuración Agentes de usuario de rastreadores bloqueados. Para otros bots que elija bloquear completamente, agregue su agente de usuario a esta lista.
Para bots menos agresivos, pero que aún consumen muchos recursos, puede agregarlos a Ralentizar agentes de usuario de rastreadores para reducir su velocidad de rastreo sin bloquearlos por completo. De forma predeterminada, esto ya limita la velocidad de los bots de IA comunes (gptbot, claudebot, anthropic-ai, brightbot). Puede administrar la tasa de ralentización a través de la configuración del sitio Tasa de ralentización del rastreador, que controla el número de segundos entre las solicitudes permitidas (predeterminado: 60 segundos).
También existe una configuración Agentes de usuario de rastreadores permitidos, que actúa como una lista de permitidos estricta. Si agrega cualquier agente de usuario a esta lista, todos los demás rastreadores serán bloqueados. Solo use esto si desea restringir su sitio a un conjunto específico de rastreadores.
Tenga mucho cuidado al realizar ajustes en estos parámetros. Por ejemplo, algunos propietarios de sitios han bloqueado accidentalmente todo el tráfico de motores de búsqueda legítimos al configurar mal esta opción.
Finalmente, recuerde que estas medidas no son infalibles. Los rastreadores evolucionan constantemente y pueden no ser bien comportados; pueden cambiar sus cadenas de agentes de usuario o distribuir solicitudes entre múltiples direcciones IP para eludir estos límites. Por lo tanto, aunque estos ajustes pueden proporcionar una primera línea de defensa sólida, debe continuar monitoreando sus análisis y registros del servidor en busca de patrones nuevos o inusuales.