Las vistas anónimas suben de repente mucho

Nunca sé qué pensar de las cifras de visualizaciones anónimas, pero nunca parece corresponderse con los datos de Google Analytics de manera significativa.

Los últimos cuatro días más o menos han puesto esto en foco porque ha habido un gran aumento sostenido en las visualizaciones anónimas, lo cual es inusual.

Puede ser una coincidencia desde la actualización a 3/3.1, pero ¿podría estar relacionado ya que comenzó un poco después?

Mientras que también se observa que las estadísticas de inicio de sesión parecen haber disminuido significativamente, eso es preocupante.

En general, también es difícil saber qué significan las estadísticas de visualización de inicios de sesión, ya que no se corresponden con los números de análisis, pero mirando solo el panel, hay una extraña nueva tendencia.

En cuanto a la disparidad entre Google Analytics y las estadísticas del panel, aquí hay un ejemplo simple: ves 500 visitas únicas de Google Analytics en un día, pero en el panel de Discourse, 2000 inicios de sesión, 50000 visualizaciones anónimas y 5000 rastreadores.

¿Qué está pasando en general con estas estadísticas?

¿Cómo debemos tratar los datos y qué pueden decirnos en términos de gestión de un foro de Discourse?

¿Son las visualizaciones anónimas una indicación de tráfico no solicitado y una pérdida de recursos?

Dicho tráfico se filtra de Google Analytics si seleccionas la opción correcta; tal vez no esté del lado de Discourse y podría indicar que es algún tipo de tráfico de bajo nivel tipo DDOS por las razones extrañas y espurias que sean, nuevamente desperdiciando recursos pero posiblemente afectando los inicios de sesión genuinos.

No hay informes hasta ahora de problemas de inicio de sesión.

En general, ¿cómo interpretamos los números del panel?

Gracias por cualquier información y consejos.

4 Me gusta

¡Hola @agemo!

También veo un comportamiento similar en los últimos meses. ¿Descubriste algo al respecto?

Probablemente bots, posiblemente bots de rastreo de IA.

Lo que me ayudó inmensamente fueron los informes de rastreadores web en el administrador después de que me alertaran sobre su existencia (nunca los había notado antes) usando esto, prohibí varios rastreadores. Lo que redujo las vistas anónimas. Creo que los rastreadores también acceden a las vistas anónimas. No tengo idea de cómo.

Los informes también te dan nombres de rastreadores (agentes de usuario) para buscar en cada rastreador para ver si tiene valor.

Este tema también podría ser útil

3 Me gusta

Eso podría ser, tampoco sé cómo, aparte de que supongo que depende de cómo el sistema identifica los bots frente a los usuarios.

He visto picos de rastreadores cuando se publica más texto, también un pico aparentemente aleatorio de vistas anónimas hace unos días.

Ahora tenemos una nueva métrica que divide las páginas vistas anónimas en ‘probablemente humanas’ y ‘probablemente bots’ para que las personas puedan pensar en estas últimas más como rastreadores (que probablemente lo son, pero no se identifican como tales).

El informe es parte de los informes estándar y se puede encontrar en /admin/reports/consolidated_page_views_browser_detection

También hay otros trabajos en curso para aplicar esto a las métricas de visualización de temas para evitar la hinchazón de bots.

3 Me gusta

Este nuevo gráfico es útil, parece que la categoría ‘probablemente bot’ está etiquetada como ‘otras visualizaciones de página’:

Con los nuevos bots descarados que no se presentan correctamente, ¿hay alguna forma de ralentizarlos o identificar su origen?

Se pueden revisar los informes del agente de usuario del rastreador web, pero si no aparecen allí, no estoy seguro de qué más investigar.

1 me gusta

No. Si el codificador de ese bot trabaja como lo hacen a menudo, es decir, hay alguna parte del texto en el agente de usuario, dispositivo, sistema, etc. que es igual todo el tiempo, entonces puedes bloquearlos totalmente, pero necesitas un proxy inverso. robots.txt es solo una guía para bots que se comportan bien.

Los registros de Discourse son más o menos solo un vistazo general. Datos tan detallados debes extraerlos de los registros de Nginx, lo que significa que la consola de bienvenida te espera :smirking_face:

WordPress puede arrodillarse fácilmente debido a los bots, pero con Discourse la situación es más bien molesta. El robo de contenido es la norma hoy en día, y lo ha sido desde hace mucho tiempo.

2 Me gusta

El proxy inverso parece un buen primer paso, ¿es Cloudflare bueno para eso?

Conozco a un amigo desarrollador web local que recomendó usar los servidores de nombres de Cloudflare para la seguridad, lo cual puede ser bueno.

No me preocupa demasiado que el contenido publicado sea “robado”, cuando el texto se publica en público, la gente tiene derecho a registrarlo siempre y cuando no intenten venderlo como su propia creación, eso sí se convertiría en un problema.

1 me gusta

Sugeriría Nginx o Varnish. Pero quizás Cloudflare también funcione, no lo conozco, nunca lo he usado.

2 Me gusta

Tuvo un pico inusual de páginas vistas de bots “otras” ayer, 17 de agosto, de 152, algo muy aleatorio para un sitio mayormente inactivo que normalmente solo tiene entre 15 y 20 de esas al día.

Totalmente normal. Para mí obtuve los mejores resultados combinando el bloqueo de los peores agentes de usuario y el geo-blogging (el mío no es un foro global, así que puedo hacerlo fácilmente).

¿Te refieres a la prohibición geográfica de direcciones IP de países distintos de Finlandia? Eso parece una buena idea para sitios centrados en lo local.

Sí. Ahora mismo tendría mucho tráfico de Rusia, Singapur y China. Antes era India, Pakistán, Egipto, Irán e Irak. Y apuesto a que no pueden terminar :wink: Es posible con Rusia, sin embargo, pero… no.

Los tres más grandes son EE. UU., Francia y Países Bajos, y Alemania está creciendo. Pero eso es por los centros de datos y por eso no puedo prohibirlos.

Pero de nuevo, con Discourse, esos son principalmente molestos. Con WordPress (y otras pilas LAMP, diría yo) crean una carga tan grande que la situación comienza a parecerse a un DDoS.

Y la mayoría son de estúpidos script kiddies que intentan tumbar Discourse usando problemas antiguos de WordPress.

Pero hoy en día, los bots de SEO e IA han comenzado a ser un verdadero signo de interrogación.

Pero si uno tiene un foro local, entonces la prohibición geográfica es simplemente una decisión sensata.

1 me gusta

Esto puede estar cobrando un ritmo problemático.

He visto lo que sospecho que es tráfico de bots habilitados por IA que se acercaba a una interrupción a nivel de DDOS, ya que el servicio de Discourse comenzaba a quejarse.

No es una configuración de alta potencia, pero para la demanda normal esperada hay cierto margen, normalmente.

Esta vez se manifestó como un enorme tráfico anónimo y otro.

Esto se correlacionó perfectamente con el aumento de las estadísticas de CPU del servidor, carga y E/S de disco.

Como usuario aquí, recibí muchas críticas y muchas (temporales) prohibiciones por denunciar la adopción salvajemente entusiasta de la IA, que ahora está volviendo para morder de muchas maneras (como la pérdida de empleos, pero y ahora esto, que puede ser una continuación del OP y no es más que el último tráfico de bots web habilitados por IA que se da a conocer, oh cielos.

En aquel entonces, mi opinión era que era (también) el momento de pensar en todas las estrategias para mitigar para el cliente/usuario final, no simplemente unirse a la carrera armamentista como sub-socio, esa lógica al estilo Musk es que si no puedes vencerlos, únete en este caso, fácil de decir, pero no es la opción correcta y el llamado a la regulación es ingenuo.

¿Darse la vuelta?

Quizás ya sea demasiado tarde.

El tráfico de IA puede llegar de forma más similar a la humana: técnicamente no sé cómo funciona (pero sé cómo llegamos aquí) más que probablemente se hace pasar por tráfico humano más fácilmente y presenta un tráfico más indetectable que también parece deseable desde el punto de vista de Google, pero oh, Dios mío, este puede ser un nuevo problema mayor.

Nada es GRATIS, no sé cuántos (de nuevo) se vieron tan cegados por esto y no aplicaron la precaución humana y eligieron una opción de dar la vuelta.

Ahora mismo ese tráfico todavía llega de regiones muy específicas e incluso los bloques ASN son suficientes para eliminar quirúrgicamente el calor.

¿Por cuánto tiempo?

Esto es bastante normal, gestiono un montón de sitios y CloudFlare suele mostrar entre 10 y 30 veces mi tráfico real. Si no activan la analítica, son bots o rastreadores de motores de búsqueda. Ya que la mayoría de los bots no ejecutan el Javascript utilizado para la analítica.

1 me gusta

CloudFlare es gratis :wink:

2 Me gusta

Estos aparecieron en Google Analytics. Eso fue lo diferente, si mal no recuerdo.

Si realmente te preocupa, usa CloudFlare y configura un firewall para los países infractores. Si tu IP ya estaba en el DNS, consigue una nueva dirección IP. Eso es si te están atacando.

1 me gusta

De hecho, el servidor ya estaba en el DNS de CF pero no estaba proxificado, ya que todavía pensaba que eso no funcionaba por consejos de configuración antiguos. Sabes que el miedo a la nube naranja es fuerte. :sweat_smile:

Sin embargo, lo probé durante una de las oleadas y mitigé el volumen con relativa facilidad después de observar un poco. Parece que ha eliminado mucho más tráfico además.

¿Es la única forma de obtener una nueva dirección IP mudarse a un nuevo servidor?

Depende de tu servicio de hosting. Algunos, como DigitalOcean, pueden simplemente asignar una nueva dirección IP estática en el panel de control, otros. Puede que necesites preguntarles. Yo nunca lo apago. Si apago la nube naranja, considero que esa IP está comprometida. Si pierdes tráfico al activarlo, es probable que tu configuración SSL no esté bien ajustada. O el caché no es correcto. Realizar cambios en vivo a Cloudflare puede ser complicado si aún no tienes el SSL configurado correctamente. Ya que es difícil obtener una dirección IP sin caché del DNS para probar.

1 me gusta