Notei algo engraçado entre 15 e 16 de fevereiro de 2022 em nossa instância auto-hospedada do Discourse no DigitalOcean. Como a imagem abaixo mostra, o número de usuários anônimos por dia saltou de aproximadamente 1.000 por dia para uma média de 10.000 por dia. Tentei entender a origem disso, mas sem sucesso.
Não consigo relacionar isso nem com as visualizações em nosso conteúdo, nem com as estatísticas do Google Search Console ou Google Analytics. Também tentamos verificar os logs, mas nada de relevante.
Seria quase impossível, senão complicado, responder de forma que se aplique ao seu site específico. O que você pode fazer para começar a descobrir é olhar o relatório do rastreador no seu painel para ver se é causado por rastreadores.
Além disso, editei o título do seu tópico para torná-lo mais descritivo
A entidade que faz a solicitação é quem se identifica como um usuário “normal” ou um bot. É um sistema baseado em honra, com todos os altos e baixos disso.
A maioria dos maus atores no ecossistema de bots não se identificará como tal e emitirá solicitações disfarçadas de usuários “normais”, e não há muito que o Discourse possa fazer nesses casos.
Se você se sente confortável com a linha de comando, faça login no seu servidor e use o seguinte para rastrear de onde vêm a maioria das solicitações:
Claro, nada mais é necessário do que um bot se identificar como um usuário. Mudar um user agent é algo realmente trivial — até mesmo seu navegador pode fazer isso. E o Discourse só conhece aqueles bots que usam… bem, UA conhecido
Claro que esses também podem ser usuários reais se em algum lugar um site de maior tráfego tiver um link para você.
Minha suposição é que o PDF carregado lá é algo que foi vinculado em outro lugar e muitas pessoas o estão baixando diretamente? Esse PDF é algo que foi carregado por um agente mal-intencionado e está recebendo muito tráfego por algum motivo?
Obrigado, @pfaffman, mas não há problema com o PDF, eu mesmo o carreguei. Eu estava apenas mostrando a imagem para indicar que não há correlação com os milhares de usuários anônimos que o Discourse está mostrando.
Ok, obrigado.
Obrigado @Falco
A linha de comando que você forneceu nos ajudou a rastrear os IPs responsáveis pelo salto. Por enquanto, continuaremos nossa observação antes de decidir se queremos bloquear os crawlers.
Apenas para observar, no meu caso, a grande maioria dos acessos são POSTs para um endpoint de message-bus. Em outras palavras, provavelmente navegadores de usuários. Em um caso a cada minuto e em outro caso com muito mais frequência.
Esses são a maioria das requisições em qualquer site Discourse, de fato, mas elas não são contadas como pageviews, então não serão refletidas no gráfico de “Pageviews Consolidados” no painel, tornando isso um pouco fora do tópico.