Las visitas de usuarios anónimos se han disparado pero Google Analytics no mostró crecimiento de tráfico. ¿Cómo averiguar de dónde proviene el aumento?

En las últimas dos semanas, las visitas de página (PV) de usuarios anónimos han explotado. Sin embargo, Google Analytics (GA) muestra una historia diferente. Como puedes ver, GA incluso mostró una ligera caída. Me encanta ver el crecimiento, pero me encantaría saber más sobre de dónde provienen de repente las visitas de página de usuarios anónimos.

¿Existe alguna forma de ver los sitios de referencia para usuarios anónimos?

Encontré esta publicación anterior: Is the info Top Referred Topics/ Top Traffic Sources stored in a table in the database? - #9 by simon. ¿Es este el paso correcto a seguir?

Hola @zhenniwu

Esto no es “crecimiento”. Es muy probable que tu sitio haya sido visitado por un bot malicioso que no sigue ninguna regla de robots.txt y que ya está marcado por Google como “bot malicioso”, por lo que su tráfico se filtra de sus estadísticas.

Hay poco o nada que puedas hacer al respecto a menos que estés dispuesto a invertir mucho tiempo y energía en la detección y bloqueo de bots, lo cual es, en su mayoría, una pérdida de tiempo (para la mayoría de las personas).

Esto es simplemente “la vida en la red tal como la conocemos” y, en gran medida, ni siquiera vale la pena prestarle atención.

@neounix ¡Muchas gracias por tus indicaciones! Confirmaron nuestra sospecha. Estamos a punto de recibir una actualización de Discourse, y esperamos que esto limite la tasa de los bots maliciosos. Continuaremos monitoreando las visitas que provienen de usuarios anónimos.

Por cierto, ¿sabes si hay alguna forma de confirmar si es un bot o no? ¡Muchas gracias por ayudarnos!

Hola @zhenniwu

Ya has confirmado que es un bot al observar su comportamiento y darte cuenta de que es una anomalía.

Detectar bots es fácil cuando la cadena de agente de usuario (UA) del cliente declara “SOY UN BOT” de una forma u otra. Sin embargo, los “bots maliciosos” no declaran que son bots en sus cadenas de UA, por lo que debemos detectar bots y actividades similares basándonos en su comportamiento.

Puedes escribir código para automatizar esto si lo deseas; sin embargo, detectar todas las clases de bots no es trivial porque existen muchas características de comportamiento diferentes de los bots; no solo por la tasa de solicitudes (como estás viendo).

Antes de comenzar a construir una solución de detección, debes preguntarte: “¿qué intentas lograr al detectarlos?”.

¿Por qué te importa? @zhenniwu

Por cierto, aquí tienes un artículo de julio de 2017 de un editor de Research Gate sobre este mismo tema. ¡Disfrútalo!

https://www.researchgate.net/blog/post/researchers-render-cyberspace-in-3d-like-a-video-game-to-make-identifying-threats-easier

¿Crees que este es el cambio de robots que hicimos para Google también, @sam?

Podría ser cierto, pero la única forma de saberlo con certeza es ver el tráfico real.

La gran mayoría de los bots no respetan robots.txt.

De hecho, muchos bots maliciosos leen robots.txt para obtener información sobre las áreas que los administradores no desean que visiten los bots, ¡y luego intentan extraer información de esas zonas!

En otras palabras, robots.txt no es efectivo para controlar el comportamiento del 99,9 % (simplemente elige un porcentaje alto) de los bots en internet; además, también puede exponer información sobre áreas “sensibles” de un sitio web.

Esto no es cierto basándonos en los 7 años de nuestra empresa de alojamiento. Estoy seguro de que existen bots maliciosos, pero están lejos de ser comunes.

Entiendo. Así que esta explosión podría no ser de bots desviados.

@codinghorror @sam, estamos encantados de proporcionar nuestros datos para que realicen cualquier análisis y depuración. Solo hágannos saber qué necesitan y se los enviaré. ¡Gracias de antemano!

¡Hola Jeff!

¡Entonces tienes suerte! He adjuntado un artículo de ResearchGate titulado “Virtualized Cyberspace - Visualizing Patterns & Anomalies for Cognitive Cyber Situational Awareness” que muestra partes del problema que describí.

Además, por si acaso, esta es nuestra “corta” lista de cadenas parciales de User Agent que NO respetan robots.txt y que rastrean nuestros sitios (actualizada):

AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot

La lista anterior es solo parcial y no se ha actualizado desde hace mucho tiempo; por lo tanto, no es “perfecta” y está bastante “oxidada”… :slight_smile:

Nuestra experiencia directa durante dos décadas, que incluye escribir mucho código de detección y visualización de bots (y publicar varios artículos, videos y presentaciones sobre este tema), es que solo un puñado de bots respetan robots.txt y aquellos que sí respetan las directrices provienen de grandes empresas como Google, Bing (Microsoft), etc.

Los bots más agresivos falsifican su cadena de User Agent para que parezcan cadenas de User Agent “no bot”.

Además, los infractores más agresivos son bots de China, Rusia y Corea; y tenemos código de plugin para nuestros foros heredados que detecta estos bots maliciosos basándose en técnicas de honey pot y otros patrones de comportamiento. Puedes ver algunos de los resultados en el artículo adjunto, que tiene bonitas imágenes a color de bots en el ciberespacio para disfrutar.

Por ejemplo, según nuestra experiencia e investigación directa de visualización de ciberseguridad, todos los bots listados en el robots.txt predeterminado de Discourse no respetan robots.txt, incluidos DotBot, semrushbot y ahrefsbot (tuvimos un problema muy grande con ahrefsbot, que se destaca en otra presentación, ver ilustración):

User-agent: DotBot
Disallow: /

User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /

En un pasado lejano, solíamos listar estos mismos bots anteriores (¡y muchos más!) en robots.txt (y aún lo hacemos) y descubrimos que “casi ninguno” de los bots listados arriba respeta las directivas de robots.txt.

¡Tienes mucha suerte si tus sitios de hosting tienen una experiencia diferente!

Hemos realizado pruebas extensas y escrito mucho código de visualización, y sabemos con certeza, gracias a investigaciones revisadas por pares, que la mayoría de los bots no respetan robots.txt y que solo un puñado de bots de “grandes empresas tecnológicas” lo hacen.

Aunque este artículo que escribimos (abajo) no lista todos los bots, sí te da un ejemplo de lo extensamente que hemos probado y escrito código (en el motor de juegos Unity y en plataformas LAMP) en este ámbito:

https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness

También hemos adjuntado este artículo como referencia, así que no es necesario descargarlo de ResearchGate.

¡Disfruta!

Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)

PS: ¡Planeo portar mucho de mi código heredado de detección de bots de LAMP a Rails en 2021, si tengo tiempo!

Ver también:

https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace

(también adjunto abajo)

anomalies_cyberspace_v01.pdf (3.3 MB)

Gráfico de ejemplo de la presentación, mostrando más de 200 bots chinos de Baidu disfrazados de usuarios regulares (usando una cadena de UA de usuario normal, no una “cadena de bot”), extrayendo un sitio desde direcciones IP de Brasil (no de China).

Curioso por ver cuáles son los cambios. ¿Hay un commit/CL?

Sí, y nuestros clientes estarían gritando a los cuatro vientos si fuera así, porque se les cobra efectivamente por cada visita a la página. Los bots maliciosos que generan visitas excesivas les cuestan dinero y podrían hacer que abandonen nuestra plataforma de alojamiento. Por eso, por ejemplo, limitamos tan drásticamente el acceso de Bing; si tienes curiosidad, puedes buscarlo.

Así que sí, nuestros más de 7 años de experiencia en alojamiento hasta ahora han demostrado que, aunque los rastreadores web y bots maliciosos existen, no representan un problema significativo.

(Diría lo mismo sobre Stack Overflow, que es una de las 100 propiedades web más importantes y que cofundé).

¡Hola, Jeff!

¡Qué gran conversación!

Hace poco estaba en una llamada con el director financiero de una de las redes publicitarias técnicas más grandes con sede en Nueva York, y me comentó que ellos (y sus anunciantes) consideran que el tráfico de bots (tanto malicioso como no) es una de sus principales preocupaciones, y que invierten una gran cantidad de dinero en este tema (distinguir el tráfico legítimo de usuarios del tráfico de bots).

Así que, de hecho, tienes mucha suerte si tus sitios web no experimentan los mismos problemas que aquejan a Wall Street y a sus anunciantes, quienes luchan contra esto constantemente.

Para ser sincero, muchas empresas con las que he trabajado en ciberseguridad y antifraude durante las últimas dos décadas han tenido una experiencia justo opuesta a la que describes.

¡Bien hecho, Jeff!

A propósito, quizás esto te interese. Está “anticuado” (de hace cinco años), pero el problema no ha mejorado desde 2015:

Cita de CSOonline (2015):

Los “bots buenos” representaron el 36 % del tráfico este año, frente al 21 % del año anterior. Los “bots malos” fueron responsables del 23 % del tráfico este año, una ligera disminución respecto al 24 % del año pasado; no porque los volúmenes hubieran bajado, repitió Essaid, sino porque el número de “bots buenos” aumentó drásticamente. El tráfico humano fue solo del 41 %, frente al 55 % del año anterior.

La empresa define “bots malos” como aquellos que no respetan los archivos “robots.txt” y no aportan valor a los sitios que visitan.

Intentaré encontrar algunas referencias más cercanas al año 2020 y publicaré de nuevo, ¡ya que 2015 está un poco anticuado con cinco años de antigüedad!

Mi experiencia con clientes de ciberseguridad es que las cifras de tráfico de “bots malos” son mucho más altas en 2020 que en el informe de CSO de 2015 mencionado anteriormente; ¡así que cualquiera que no tenga un problema de “bots malos” tiene mucha suerte! Hemos desarrollado muchas soluciones de “detección y clasificación de bots malos” durante la última década y es un dolor de cabeza, ya que los programadores de bots se vuelven más “astutos” :slight_smile: y son muy hábiles cambiando sus cadenas de User-Agent (junto con la temporización y el comportamiento de los bots) para parecer tráfico humano legítimo (mucho antes de que existiera CloudFlare).

Es muy bueno escuchar a Jeff que los sitios de Discourse son básicamente inmunes a este tráfico de “bots malos” y no necesitan código complejo de detección de bots para mitigar los problemas con los que luchan otros.

¿Está todo el alojamiento de Discourse detrás de CloudFlare? CloudFlare está diseñado para protegerse contra esto.

Como dije, literalmente estaríamos fuera de negocio si lo que describes (bots maliciosos extremadamente omnipresentes que descargan millones de páginas por segundo) fuera cierto, así que supongo que es una especie de milagro. No estoy seguro de cómo explicar este conflicto entre lo que tú crees que es cierto y las realidades comerciales reales que he experimentado en Stack Overflow (2008-2012) y Discourse (2012-hoy).

Por otro lado, las redes publicitarias y los bots son un tema muy diferente, ya que los bots que se hacen pasar por usuarios y hacen clic en anuncios son una forma de imprimir dinero “gratis” para los creadores de bots.

Quizás la diferencia es que la mayoría de nuestros clientes no dependen de los anuncios. Incluso en Stack Overflow, los anuncios gráficos eran una parte pequeña del negocio. Podría ser una buena idea tener en cuenta esa diferencia crucial cuando pienses en esto.

Hola Jeff,

Solo para tu información, es un conocimiento bastante generalizado, no mi opinión personal, que el tráfico de bots supera al tráfico humano en Internet.

También es conocimiento común, no mi opinión personal, que un gran porcentaje del tráfico de bots proviene de bots que no respetan el archivo robots.txt. Algunos estiman al menos la mitad; mi experiencia es que esto “depende del sitio y del tema”.

Me alegra que tengas una experiencia diferente en las empresas que has fundado y desarrollado, y te lo agradezco sinceramente.

Por otro lado, el hecho en Internet es que el tráfico de bots en 2020 representa aproximadamente entre el 55% y el 60% de todo el tráfico; y de ese tráfico de bots, quizás la mitad proviene de bots que no respetan robots.txt. Algunas investigaciones sitúan la cifra de “malos bots” tan baja como el 35% de todo el tráfico, mientras que otras la sitúan más alta, dependiendo del estudio. No lo estoy inventando; está bien documentado.

Si tienes artículos de investigación o estadísticas, más allá de tu experiencia alojando en Discourse o de tu experiencia previa, que demuestren que el tráfico de “malos bots” es insignificante, me encantaría leerlos; porque personalmente, nunca he visto ningún artículo de investigación o referencia que indique que el tráfico de “malos bots” sea tan insignificante como tú afirmas aquí.

Me disculpo si no estar de acuerdo contigo te molesta. He proporcionado referencias y puedo ofrecer más (no son mi opinión), si estás abierto a los hechos sobre el tráfico en Internet.

De lo contrario, dejaré de publicar sobre este tema para no molestarte :slight_smile:, ya que no quiero ser desagradable contigo sobre algo que tienes una opinión muy fuerte en un foro donde no tengo poderes de administrador :slight_smile:

¡Felices fiestas!

Quizás para las redes publicitarias que están librando una batalla mortal contra los bots y los clics falsos por los dólares de la publicidad. Pero en Stack Overflow y Discourse? Es en gran medida un problema inexistente.

Si te gusta discutir hipótesis basadas en teorías, adelante, tómate tu tiempo. Dedica todo el día, todos los días, a teorizar a tu antojo. ¡Espero que esta teorización te traiga mucha alegría y felicidad en tu vida! Mientras tanto, tenemos negocios que gestionar, así que prefiero tomar decisiones basadas en los datos reales que hemos recopilado en nuestros negocios reales. Supongo que soy un poco loco de esa manera. Lo siento si eso te resulta molesto o desconcertante.

¡Que tengas un maravilloso resto del día!

Hmm… Puede que me esté perdiendo algo, pero la investigación que enlazaste arriba no parece mostrar realmente tendencias generales en toda la web.

Parece centrarse en mostrar el tráfico de un sitio de una manera que hace que detectar y cuantificar… cuestionable… el tráfico sea un ejercicio visual bastante simple, lo cual en sí mismo parece interesante. Sin embargo, no hay indicación de qué sitios fueron representados, ni siquiera de qué tipos de sitios. Es difícil evaluar si los casos mostrados son representativos de la web en su conjunto.

Nota: No estoy cuestionando si el tráfico de bots es enorme en general, ni si hay muchos bots “maliciosos”… pero las estadísticas (que se pueden buscar en Google) parecen tener cierta dispersión en comparación con el resultado de búsqueda del que hiciste captura de pantalla.

Lo que podría ser más útil sería un análisis estadístico de qué tipos de sitios tienden a ser atacados agresivamente por qué tipo de bots. (Esperaría, por ejemplo, que Facebook y plataformas similares atraigan una cantidad desproporcionadamente grande de atención de cierto segmento de estos bots. Otro segmento probablemente se dirige casi exclusivamente a sitios con mucha publicidad.)

Hola Jeff,

Si quieres pintarme como un “teórico loco” que no sabe nada sobre las operaciones de red en Internet, que así sea; pero nada podría estar más lejos de la verdad, como cualquiera que me conoce ya sabe :slight_smile:

El OP tuvo un pico. Lo más probable es que fuera causado por un bot. Creo que podemos estar de acuerdo en eso :slight_smile:

Que tengas un gran día, Jeff, y unas vacaciones fantásticas.

Además, gracias por presentarme a Ruby on Rails. Si no hubiera sido por ti y por Discourse, no estaría escribiendo código Ruby todos los días (fuera de Discourse), y eso fue lo mejor que me pasó a nivel técnico en 2020. ¡Simplemente amo Ruby.

¡Gracias de nuevo, Jeff!

Hola @Sailsman63

He proporcionado algunas referencias complementarias en varios ámbitos; y no he publicado, ni afirmado publicar, un trabajo detallado ni un estudio de todo el tráfico de Internet en cada escenario operativo.

En mi opinión, cualquier ingeniero que dedique al menos 60 minutos a investigar en Internet y que posea habilidades razonables de investigación y análisis podrá (1) encontrar muchas referencias a informes operativos (no teóricos) sobre qué porcentaje del tráfico de red en Internet se atribuye a bots y (2) encontrar varias referencias que también cuantifican cuánto de ese tráfico proviene de “bots maliciosos” que no respetan robots.txt.

Esto no es “teoría” ni “mi idea”. Es un hecho bien establecido y este hecho no está oculto para nadie que se tome la molestia de investigarlo; y desde un punto de vista operativo, vemos lo mismo todos los días cuando analizamos archivos de registro y procesamos el comportamiento del tráfico en sitios web, como configurar trampas (honey pots) que solo los bots pueden encontrar (los usuarios humanos normales nunca van allí), por lo que solo los bots van allí, etc.

He configurado muchos “enlaces trampa” en sitios web y he atrapado a muchos bots a lo largo de mis días; por lo que esto no es algo que simplemente me haya inventado “de la nada”, LOL :). Otros en la red han hecho lo mismo (es una técnica común de ciberseguridad), no soy el único, te lo prometo :slight_smile:

¡Que tengas un buen día!