Como posso descobrir por que tive um grande salto em pageviews anônimos?

Saudações,

Notei algo engraçado entre 15 e 16 de fevereiro de 2022 em nossa instância auto-hospedada do Discourse no DigitalOcean. Como a imagem abaixo mostra, o número de usuários anônimos por dia saltou de aproximadamente 1.000 por dia para uma média de 10.000 por dia. Tentei entender a origem disso, mas sem sucesso.

Não consigo relacionar isso nem com as visualizações em nosso conteúdo, nem com as estatísticas do Google Search Console ou Google Analytics. Também tentamos verificar os logs, mas nada de relevante.

Alguém tem alguma ideia do que pode ser a causa disso?

Nossa comunidade: https://community.world-like-home.com/

Muito obrigado.

1 curtida

Seria quase impossível, senão complicado, responder de forma que se aplique ao seu site específico. O que você pode fazer para começar a descobrir é olhar o relatório do rastreador no seu painel para ver se é causado por rastreadores.

Além disso, editei o título do seu tópico para torná-lo mais descritivo :wink:

2 curtidas

Você está recebendo muitos bots.

2 curtidas

Obrigado @osioke

Mas se fosse o crawler, eu esperava que o discourse o rotulasse explicitamente como tal? Espero não estar perdendo algo?

@Jagster É possível para o discourse contar bots como usuários anônimos?

2 curtidas

A entidade que faz a solicitação é quem se identifica como um usuário “normal” ou um bot. É um sistema baseado em honra, com todos os altos e baixos disso.

A maioria dos maus atores no ecossistema de bots não se identificará como tal e emitirá solicitações disfarçadas de usuários “normais”, e não há muito que o Discourse possa fazer nesses casos.

Se você se sente confortável com a linha de comando, faça login no seu servidor e use o seguinte para rastrear de onde vêm a maioria das solicitações:

cd /var/discourse/shared/standalone/log/var-log/nginx/
grep " 200 "  access.log | awk '{print $4}' | sort | uniq -c | sort -r
4 curtidas

Claro, nada mais é necessário do que um bot se identificar como um usuário. Mudar um user agent é algo realmente trivial — até mesmo seu navegador pode fazer isso. E o Discourse só conhece aqueles bots que usam… bem, UA conhecido :wink:

Claro que esses também podem ser usuários reais se em algum lugar um site de maior tráfego tiver um link para você.

4 curtidas

Minha suposição é que o PDF carregado lá é algo que foi vinculado em outro lugar e muitas pessoas o estão baixando diretamente? Esse PDF é algo que foi carregado por um agente mal-intencionado e está recebendo muito tráfego por algum motivo?

2 curtidas

Obrigado, @pfaffman, mas não há problema com o PDF, eu mesmo o carreguei. Eu estava apenas mostrando a imagem para indicar que não há correlação com os milhares de usuários anônimos que o Discourse está mostrando.

Ok, obrigado.

Obrigado @Falco
A linha de comando que você forneceu nos ajudou a rastrear os IPs responsáveis pelo salto. Por enquanto, continuaremos nossa observação antes de decidir se queremos bloquear os crawlers.

4 curtidas

Apenas para observar, no meu caso, a grande maioria dos acessos são POSTs para um endpoint de message-bus. Em outras palavras, provavelmente navegadores de usuários. Em um caso a cada minuto e em outro caso com muito mais frequência.

"POST /message-bus/<hash>/poll?dlp=t HTTP/1.1"
1 curtida

Esses são a maioria das requisições em qualquer site Discourse, de fato, mas elas não são contadas como pageviews, então não serão refletidas no gráfico de “Pageviews Consolidados” no painel, tornando isso um pouco fora do tópico.

1 curtida

Ponto justo. Talvez você possa adicionar grep -v POST ao seu pipe?

1 curtida