Visualizações anônimas de repente muito altas

Nunca sei o que pensar dos números anônimos de visualizações, mas eles nunca parecem corresponder aos dados do Google Analytics de forma significativa.

Os últimos quatro dias trouxeram isso ao foco porque houve um enorme aumento sustentado em visualizações anônimas, o que é incomum.

Pode ser coincidência, já que a atualização para 3/3.1 ocorreu um pouco antes, mas poderia estar relacionada?

Ao mesmo tempo, as estatísticas de login parecem ter caído significativamente, o que é preocupante.

Geralmente, é difícil saber o que comparar com as estatísticas de visualizações de login, pois elas não correspondem aos números do Google Analytics, mas olhando apenas para o painel, há uma nova tendência estranha.

Em termos de disparidade entre o Google Analytics e as estatísticas do painel, aqui está um exemplo simples: você vê 500 visitas únicas do Google Analytics em um dia, mas no painel do Discourse, 2000 logins, 50000 visualizações anônimas e 5000 rastreadores.

O que está acontecendo com essas estatísticas?

Como devemos tratar os dados e o que eles podem nos dizer em termos de gerenciamento de um fórum Discourse?

Visualizações anônimas são uma indicação de tráfego não solicitado e um desperdício de recursos?

Esse tráfego é filtrado do Google Analytics se você selecionar a opção correta - talvez não seja do lado do Discourse e possa indicar algum tipo de tráfego de baixo nível tipo DDOS por quaisquer razões bizarras e espúrias, novamente desperdiçando recursos, mas possivelmente afetando logins genuínos?

Nenhum relato até agora de problemas de login.

No geral, como interpretamos os números do painel?

Obrigado por qualquer insight e dicas.

4 curtidas

Olá @agemo!

Eu também vejo um comportamento semelhante nos últimos meses. Você conseguiu descobrir algo sobre isso?

Provavelmente bots, possivelmente bots de raspagem de IA.

O que me ajudou imensamente foram os relatórios de rastreadores da web no admin, depois de ter sido alertado sobre sua existência (eu nunca os tinha notado antes), usando isso, baní vários rastreadores. O que diminuiu as visualizações anônimas. Acho que os rastreadores também chegam nas visualizações anônimas. Não tenho ideia de como.

Os relatórios também fornecem nomes de rastreadores (user agents) para pesquisar em cada rastreador para ver se ele tem valor.

Este tópico também pode ser útil

3 curtidas

Isso pode ser, também não sei como, exceto que eu adivinharia que depende de como o sistema identifica bots versus usuários.

Eu vi picos de crawlers quando mais texto é publicado, também um pico aparentemente aleatório de visualizações anônimas alguns dias atrás.

Temos uma nova métrica em vigor agora que divide as visualizações de página anônimas em ‘provavelmente humano’ e ‘provavelmente bot’, para que as pessoas possam pensar no último mais como rastreadores (o que provavelmente deveriam ser, mas não estão se identificando como tal).

O relatório faz parte dos relatórios padrão e pode ser encontrado em /admin/reports/consolidated_page_views_browser_detection

Há também outro trabalho em andamento para aplicar isso às métricas de visualização de tópicos também, para evitar o inchaço de bots.

3 curtidas

Este novo gráfico é útil, parece que a categoria ‘provavelmente bot’ está rotulada como ‘outras visualizações de página’:

Com os novos bots atrevidos que não se apresentam adequadamente, há alguma maneira de diminuir a velocidade deles ou identificar sua origem?

Posso verificar os relatórios do user agent do rastreador da web, mas se eles não aparecerem lá, não tenho certeza do que mais investigar.

1 curtida

Não. Se o programador desse bot trabalhou como eles costumam fazer, significando que há alguma parte do texto no user agent, dispositivo, sistema, etc. que é sempre a mesma, então você pode bloqueá-los totalmente, mas você precisa de um proxy reverso. robots.txt é apenas uma diretriz para bots que se comportam bem.

Os logs do Discourse são mais ou menos apenas um vislumbre do quadro geral. Dados tão detalhados você deve extrair dos logs do Nginx, o que significa bem-vindo ao console :smirking_face:

O WordPress pode facilmente ir de joelhos por causa de bots, mas com o Discourse a situação é mais irritante. O roubo de conteúdo é a norma hoje em dia, e tem sido há muito tempo.

2 curtidas

Proxy reverso parece um bom primeiro passo, o Cloudflare é bom para isso?

Conheço um amigo desenvolvedor web local que recomendou usar os nameservers do Cloudflare para segurança, o que pode ser bom.

Não estou muito preocupado com o conteúdo publicado ser ‘roubado’, quando o texto é publicado publicamente as pessoas têm o direito de registrá-lo, desde que não estejam tentando vendê-lo como sua própria criação, o que se tornaria um problema.

1 curtida

Eu sugeriria Nginx ou Varnish. Mas talvez o Cloudflare também funcione, eu não o conheço, nunca usei.

2 curtidas

Tive um pico incomum de visualizações de página de bots “outras” ontem, 17 de agosto, de 152, o que é muito aleatório para um site majoritariamente inativo que geralmente tem apenas cerca de 15-20 por dia.

Totalmente normal. Para mim, obtive os melhores resultados usando em conjunto o bloqueio dos piores user agents e geo-blogging (o meu não é um fórum global, então posso fazer isso facilmente).

Você quer dizer geo-banimento de IPs de outros países além da Finlândia? Isso parece uma boa ideia para sites com foco local.

Sim. No momento, eu teria muito tráfego da Rússia, Singapura e China. Anteriormente, era Índia, Paquistão, Egito, Irã e Iraque. E aposto que eles não conseguem terminar :wink: É possível com a Rússia, no entanto, mas… não.

Os três maiores são EUA, França e Holanda, e a Alemanha está crescendo. Mas isso é por causa dos data centers e é por isso que não posso proibi-los.

Mas, novamente, com o Discourse, esses são principalmente apenas irritantes. Com o WordPress (e outras pilhas LAMP, eu diria) eles criam uma carga tão grande que a situação começa a se aproximar de um DDoS.

E a maioria é de script kiddies estúpidos que tentam derrubar o Discourse usando problemas antigos do WordPress.

Mas hoje em dia, bots de SEO e IA começaram a ser um verdadeiro ponto de interrogação.

Mas se alguém tem um fórum local, o geo-ban é apenas uma jogada inteligente.

1 curtida

Isso pode estar ganhando um ritmo problemático.

Vi o que suspeito ser tráfego de bot habilitado por IA que estava se aproximando do nível de interrupção de DDOS, pois o serviço de discourse começou a reclamar.

Não é uma configuração de alta potência, mas para a demanda normal esperada, há alguma folga, normalmente.

Desta vez, apareceu como um enorme tráfego anônimo e outro.

Isso se mapeou perfeitamente para o aumento das estatísticas de CPU do servidor, carga e I/O de disco.

Como usuário aqui, recebi muitas críticas e muitas proibições (temporárias) por criticar a adoção entusiástica de IA, que agora está voltando para morder de muitas maneiras (como perda de empregos, mas e agora isso, que pode ser uma continuação do OP e nada mais do que o mais recente tráfego de bot da web habilitado por IA se tornando conhecido, oh céus.

Naquela época, minha visão era que era (também) hora de pensar em todas as estratégias para mitigar para o cliente/usuário final, não simplesmente entrar na corrida armamentista como um sub-parceiro, que a lógica estilo Musk é se você não pode vencê-los, junte-se a eles nesta instância, fácil de dizer, mas não a opção correta e o apelo por regulamentação ingênuo.

Ficar de fora?

Talvez tarde demais agora.

O tráfego de IA pode vir de forma mais semelhante à humana: tecnicamente, não sei como isso funciona (mas sei como chegamos aqui), exceto que provavelmente se passa por tráfego humano com mais facilidade e apresenta um tráfego mais indetectável que também parece desejável do ponto de vista do Google, mas oh céus, este pode ser um novo problema maior.

Nada é de graça, não sei quantas vezes (novamente) ficaram tão cegas por isso e não aplicaram cautela em nível humano e escolheram uma opção de ficar de fora.

No momento, esse tráfego ainda vem de regiões muito específicas e até mesmo blocos de ASN são suficientes para eliminar cirurgicamente o calor.

Por quanto tempo?

Isso é bem normal, eu rodo. Um monte de sites e o CloudFlare geralmente mostra cerca de 10x a 30x meu tráfego real. Se eles não acionam análises, são bots ou rastreadores de mecanismos de pesquisa. Como a maioria dos bots não executará o Javascript usado para análises.

1 curtida

O CloudFlare é gratuito :wink:

2 curtidas

Estes apareceram no Google Analytics. Foi isso que foi diferente, se não me engano.

Se você estiver realmente preocupado, use o CloudFlare e configure um firewall para os países ofensores. Se o seu IP já estava no DNS, obtenha um novo endereço IP. Isso, se você estiver sendo atacado.

1 curtida

De fato, o servidor já estava no DNS da CF, mas não estava com proxy, pois eu ainda achava que isso não funcionava com base em conselhos de configurações antigas. Você sabe, o medo da nuvem laranja é forte. :sweat_smile:

No entanto, experimentei durante uma das ondas e mitiguei o volume com relativa facilidade após alguma observação. Parece que isso removeu muito mais tráfego além do necessário.

A única maneira de obter um novo endereço IP é mudar para um novo servidor?

Depende do seu serviço de hospedagem. Alguns, como a DigitalOcean, podem simplesmente atribuir um novo endereço IP estático no painel, alguns. Você pode precisar perguntar a eles. Eu nunca desligo. Se eu desligo a nuvem laranja, considero que esse IP está comprometido. Se você perder tráfego ao ativá-lo, sua configuração de SSL provavelmente não está correta. Ou o cache não está correto. Fazer trocas ao vivo para o Cloudflare pode ser complicado se você ainda não tiver o SSL configurado corretamente. Pois é difícil obter um endereço IP não cacheado do DNS para testar.

1 curtida