¿Cómo puedo averiguar por qué tengo un gran salto en pageviews anónimos?

Saludos,

Noté algo curioso entre el 15 y el 16 de febrero de 2022 en nuestra instancia autoalojada de Discourse en DigitalOcean. Como muestra la imagen a continuación, el número de usuarios anónimos por día saltó de aproximadamente 1000 por día a un promedio de 10 000 por día. He intentado entender el origen de esto, pero sin éxito.

No parece coincidir ni con las vistas de nuestro contenido ni con las estadísticas de Google Search Console o Google Analytics. También intentamos revisar los registros, pero no encontramos mucho.

¿Alguien tiene alguna idea de cuál puede ser la causa?

Nuestra comunidad: https://community.world-like-home.com/

Muchas gracias.

1 me gusta

Sería casi imposible, si no complicado, responder de una manera que hable de tu sitio específico. Sin embargo, para empezar a averiguarlo, puedes consultar el informe del rastreador en tu panel para ver si es causado por rastreadores.

Además, edité el título de tu tema para hacerlo más descriptivo :wink:

2 Me gusta

Estás recibiendo muchos bots.

2 Me gusta

Gracias @osioke

Pero si fuera el rastreador, ¿esperaba que discourse lo etiquetara explícitamente como tal? ¿Espero no estar perdiéndome algo?

@Jagster ¿Es posible que discourse cuente los bots como usuarios anónimos?

2 Me gusta

La entidad que realiza la solicitud es la que se identifica a sí misma como un usuario “normal” o un bot. Es un sistema basado en el honor, con todos los altibajos que eso conlleva.

La mayoría de los actores maliciosos en el ecosistema de bots no se identificarán como tales y emitirán solicitudes disfrazadas de usuarios “normales”, y no hay mucho que Discourse pueda hacer en esos casos.

Si te sientes cómodo con la línea de comandos, inicia sesión en tu servidor y usa lo siguiente para rastrear de dónde provienen la mayoría de las solicitudes:

cd /var/discourse/shared/standalone/log/var-log/nginx/
grep " 200 "  access.log | awk '{print $4}' | sort | uniq -c | sort -r
4 Me gusta

Por supuesto, no se necesita nada más que un bot se identifique como un usuario. Cambiar un agente de usuario es algo realmente trivial, incluso tu navegador puede hacerlo. Y Discourse solo conoce a aquellos bots que usan… bueno, UA conocidos :wink:

Claro que también pueden ser usuarios reales si en algún sitio de mayor tráfico hay un enlace a ti.

4 Me gusta

Mi suposición es que el PDF subido allí es algo que se enlazó en otro lugar y mucha gente lo está descargando directamente. ¿Es ese PDF algo que subió un actor malintencionado y está recibiendo mucho tráfico por alguna razón?

2 Me gusta

Gracias, @pfaffman, pero no hay ningún problema con el PDF, de hecho, lo subí yo mismo. Solo estaba mostrando la imagen para indicar que no hay correlación con los miles de usuarios anónimos que muestra Discourse.

Ok, gracias.

Gracias @Falco.
La línea de comandos que proporcionaste nos ha ayudado a rastrear las IPs responsables del salto. Por ahora, continuaremos nuestra observación antes de decidir si queremos bloquear los rastreadores.

4 Me gusta

Solo para señalar que, en mi caso, la gran mayoría de los accesos son POST a un punto final de message-bus. En otras palabras, probablemente los navegadores de los usuarios. En un caso cada minuto y en otro caso mucho más a menudo.

"POST /message-bus/<hash>/poll?dlp=t HTTP/1.1"
1 me gusta

Esas son la mayoría de las solicitudes en cualquier sitio de Discourse, de hecho, pero no se cuentan como páginas vistas, por lo que no se reflejarán en el gráfico de “Páginas vistas consolidadas” en el panel, lo que hace que esto sea un poco fuera de tema.

1 me gusta

Buen punto. ¿Quizás podrías añadir grep -v POST a tu tubería?

1 me gusta