Pageviews de Usuários Anônimos explodiram, mas o Google Analytics não mostrou crescimento de tráfego. Como descobrir de onde vem o aumento?

Nas últimas duas semanas, as visualizações de página (PV) de usuários anônimos explodiram. No entanto, o Google Analytics (GA) mostra uma história diferente. Como você pode ver, o GA até mesmo apresentou uma leve queda. Adoro ver o crescimento, mas gostaria de saber mais sobre de onde vêm essas visualizações repentinas de usuários anônimos.

Existe alguma maneira de ver os sites de referência para usuários anônimos?

Encontrei esta postagem anterior: Is the info Top Referred Topics/ Top Traffic Sources stored in a table in the database? - #9 by simon. Esse é o caminho certo a seguir?

Olá @zhenniwu

Isso não é “crescimento”. Seu site provavelmente foi visitado por um bot malicioso que não segue nenhuma regra de robots.txt e já está sinalizado pelo Google como um “bot malicioso”, por isso o tráfego deles é filtrado de suas estatísticas.

Há pouco ou nada que você possa fazer sobre isso, a menos que esteja disposto a investir muito tempo e energia em detecção e bloqueio de bots, o que é, na maioria dos casos, perda de tempo (para a maioria das pessoas).

Isso é apenas “a vida na internet como a conhecemos” e, na maior parte das vezes, nem vale a pena prestar atenção nisso.

@neounix Muito obrigado pelas suas orientações! Elas confirmaram nossa suspeita. Estamos agendados para uma atualização com o Discourse e esperamos que isso limite a taxa dos bots maliciosos. Continuaremos monitorando as visualizações de página que vêm de usuários anônimos.

Aliás, você sabe se há uma maneira de confirmar se é um bot ou não? Muito obrigado por nos ajudar!

Olá @zhenniwu

Você já confirmou que é um bot ao observar o comportamento e perceber que se trata de uma anomalia.

Detectar bots é fácil quando a string do agente de usuário (UA) do cliente afirma “EU SOU UM BOT” de uma forma ou de outra. No entanto, os “bots maliciosos” não declaram que são bots em suas strings de UA, então precisamos detectar bots e atividades semelhantes com base no comportamento deles.

Você pode escrever código para automatizar isso, se quiser; no entanto, detectar todas as classes de bots não é trivial, pois existem muitas características comportamentais diferentes de bots; não apenas pela taxa de solicitações (como você está vendo).

Antes de começar a construir uma solução de detecção, você deve se perguntar: “o que você está tentando alcançar ao detectá-los?”.

Por que você se importa? @zhenniwu

A propósito, aqui está um artigo de julho de 2017 de um editor do Research Gate sobre esse mesmo tópico. Aproveite!

https://www.researchgate.net/blog/post/researchers-render-cyberspace-in-3d-like-a-video-game-to-make-identifying-threats-easier

Você acha que essa é a mudança de robots que fizemos para o Google também, @sam?

Pode certamente ser o caso, mas a única maneira de ter certeza é ver o tráfego real.

A grande maioria dos bots não respeita o robots.txt.

Na verdade, muitos bots maliciosos leem o robots.txt para obter informações sobre áreas onde os administradores não desejam que os bots acessem e, em seguida, tentam obter dados dessas áreas!

Em outras palavras, o robots.txt não é eficaz para controlar o comportamento de 99,9% (basta escolher uma porcentagem alta) dos bots na internet; além disso, ele também pode expor informações sobre áreas “sensíveis” de um site.

Isso não é verdade, com base em 7 anos do nosso negócio de hospedagem. Tenho certeza de que existem bots maliciosos por aí, mas eles estão longe de ser comuns.

Entendi. Então essa explosão pode não ser de bots maliciosos.

@codinghorror @sam, estamos felizes em fornecer nossos dados para que vocês realizem qualquer análise e depuração. Basta me dizer o que precisam, e eu enviarei para vocês. Agradeço antecipadamente!

Olá Jeff!

Então você tem sorte! Anexei um artigo do ResearchGate intitulado “Virtualized Cyberspace - Visualizing Patterns & Anomalies for Cognitive Cyber Situational Awareness” mostrando partes do problema que descrevi!

Além disso, só para constar, esta é a nossa “curta” lista de strings parciais de User Agent que NÃO respeitam o robots.txt e que fazem varredura em nossos sites (atualizada):

AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot

A lista acima é apenas parcial e não foi atualizada há muito tempo; portanto, não é “perfeita” e está bastante “enferrujada”… :slight_smile:

Nossa experiência direta ao longo de duas décadas, incluindo a escrita de muito código de detecção e visualização de bots (e a publicação de vários artigos, vídeos e apresentações sobre este tópico), é que apenas um punhado de bots respeita o robots.txt e aqueles que respeitam as diretrizes são de grandes empresas como Google, Bing (Microsoft), etc.

Os bots mais agressivos falsificam sua string de User Agent para parecerem strings de User Agent “não bot”.

Além disso, os infratores mais agressivos são bots da China, Rússia e Coreia; e temos código de plugin para nossos fóruns legados que detectam esses bots maliciosos com base em técnicas de honey pot e outros padrões comportamentais. Você pode ver alguns dos resultados no artigo anexado, que tem imagens coloridas legais de bots no ciberespaço para apreciar.

Por exemplo, com base em nossa experiência e pesquisa direta de visualização de cibersegurança, todos os bots listados no robots.txt padrão do Discourse não respeitam o robots.txt, incluindo DotBot, semrushbot e ahrefsbot (tivemos um problema muito grande com o ahrefsbot, que é destacado em outra apresentação, veja a ilustração):

User-agent: DotBot
Disallow: /

User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /

No passado distante, costumávamos listar esses mesmos bots acima (e muitos mais!) no robots.txt (e ainda o fazemos) e descobrimos que “quase zero” dos bots listados acima respeita as diretrizes do robots.txt.

Você tem muita sorte se seus sites de hospedagem tiverem uma experiência diferente!

Fizemos testes extensivos e escrevemos muito código de visualização e sabemos com certeza, com base em pesquisas revisadas por pares, que a maioria dos bots não respeita o robots.txt e que apenas um punhado de bots de “grandes empresas de tecnologia” o respeita.

Embora este artigo que escrevemos (abaixo) não liste todos os bots, ele lhe dá um exemplo de quão extensivamente testamos e escrevemos código (no motor de jogos Unity e em plataformas LAMP) nesta área:

https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness

Também anexei este artigo como referência, então não há necessidade de baixar do ResearchGate.

Aproveite!

Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)

PS: Pretendo portar muito do meu código legado de detecção de bots LAMP para Rails em 2021, se tiver tempo!

Veja também:

https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace

(também anexado abaixo)

anomalies_cyberspace_v01.pdf (3.3 MB)

Exemplo gráfico da apresentação, mostrando mais de 200 Bots Baidu chineses disfarçados de usuários regulares (usando uma string de UA de usuário normal, não uma “string de bot”), puxando um site de endereços IP do Brasil (não da China).

Curioso para ver quais são as mudanças. Há um commit/CL?

Sim, e nossos clientes estariam gritando de raiva se fosse esse o caso, porque eles são efetivamente cobrados por visualização de página. Bots maliciosos que geram visualizações excessivas representam um custo para eles e fariam com que deixassem nossa plataforma de hospedagem. É por isso que limitamos severamente o Bing, por exemplo — fique à vontade para pesquisar se tiver curiosidade.

Então, sim, nossos mais de 7 anos de experiência em hospedagem até agora demonstraram que rastreadores da web e bots maliciosos, embora existam, não são um problema significativo.

(Diria o mesmo para o Stack Overflow, que é um dos 100 principais sites da web que co-fundei.)

E aí, Jeff!

Ótima conversa!

Não faz muito tempo, estive em uma conferência com o CFO de uma das maiores redes de anúncios técnicos com sede em Nova York, e ele me disse que eles (e seus anunciantes) consideram o tráfego de bots (malicioso e não malicioso) uma de suas principais preocupações. Eles gastam muito dinheiro com esse tema específico: classificar o tráfego de usuários legítimos versus tráfego de bots.

Portanto, você tem, de fato, muita sorte se seus sites não estão enfrentando os mesmos problemas que afligem Wall Street e seus anunciantes, que lutam contra isso constantemente.

Para ser sincero, muitas empresas com as quais trabalho em cibersegurança e antifraude, ao longo das últimas duas décadas, tiveram uma experiência exatamente oposta à que você descreve.

Bom trabalho, Jeff!

Aliás, você pode achar isso interessante. Está “datado” (de cinco anos atrás), mas o problema não ficou “melhor” desde 2015:

Citação do CSOonline acima (2015):

“Bots bons” representaram 36% do tráfego este ano, contra 21% no ano anterior. “Bots ruins” foram responsáveis por 23% do tráfego este ano, uma leve queda em relação aos 24% do ano anterior — não porque os volumes tenham diminuído, repetiu Essaid, mas porque o número de “bots bons” aumentou drasticamente. O tráfego humano foi apenas 41%, abaixo dos 55% do ano anterior.

A empresa define “bots ruins” como aqueles que não respeitam os arquivos “robots.txt” e não oferecem valor aos sites que visitam.

Vou tentar encontrar algumas referências mais próximas do ano 2020 e postar aqui, já que 2015 está um pouco datado com cinco anos de diferença!

Minha experiência com clientes de cibersegurança é que os números de tráfego de “bots ruins” são muito maiores em 2020 do que no relatório do CSO de 2015 acima; então, qualquer pessoa que não tenha um problema com “bots ruins” tem muita sorte mesmo! Escrevemos muito sobre “detectar e classificar bots ruins” na última década e é uma dor de cabeça, pois os programadores de bots ficam cada vez mais “astutos” :slight_smile: e são bons em alterar suas strings de UA (juntamente com o tempo e o comportamento dos bots) para parecerem tráfego humano legítimo (muito antes da existência do CloudFlare).

É realmente bom ouvir do Jeff que os sites do Discourse são basicamente imunes a esse tráfego de “bots ruins” e não precisam de código complexo de detecção de bots para mitigar os problemas com os quais outros lutam.

Todo o hospedagem do Discourse está atrás do CloudFlare? O CloudFlare foi projetado para proteger contra isso.

Como disse, estaríamos literalmente fora do negócio se o que você descreveu (bots maliciosos extremamente pervasivos baixando milhões de páginas por segundo) fosse verdade, então acho que é uma espécie de milagre! Não sei como explicar esse conflito entre o que você acredita ser verdade e as realidades comerciais que vivi na Stack Overflow (2008-2012) e na Discourse (2012-atualmente).

Por outro lado, redes de anúncios e bots são uma conversa bem diferente — já que bots que se passam por usuários e clicam em anúncios são uma forma de imprimir dinheiro “grátis” para os criadores dos bots.

Talvez a diferença seja que a maioria dos nossos clientes não depende de anúncios? E mesmo na Stack Overflow, os anúncios visuais eram uma parte pequena do negócio. Pode ser uma boa ideia manter essa diferença crucial em mente quando você pensar sobre isso.

Olá Jeff,

Só para informar, é um conhecimento bastante comum, não minha opinião pessoal, que o tráfego de bots supera o tráfego humano na Internet.

Também é de conhecimento geral, não minha opinião pessoal, que uma grande porcentagem do tráfego de bots provém de bots que não respeitam o robots.txt. Alguns estimam pelo menos a metade; minha experiência é que isso “depende do site e do assunto”.

Fico feliz que você tenha tido uma experiência diferente nas empresas que fundou e construiu, e fico muito feliz por você.

Por outro lado, o fato na Internet é que, em 2020, o tráfego de bots representava entre 55% e 60% de todo o tráfego; e desse tráfego de bots, talvez cerca da metade venha de bots que não respeitam o robots.txt. Algumas pesquisas colocam a cifra de “bots maliciosos” tão baixa quanto 35% de todo o tráfego, outras mais altas, dependendo da pesquisa. Não estou inventando isso; está bem documentado.

Se você tiver artigos de pesquisa ou estatísticas, além da sua experiência hospedando no Discourse ou de sua experiência anterior, mostrando que o “tráfego de bots maliciosos” é insignificante, ficarei muito feliz em lê-los; porque, pessoalmente, nunca vi nenhum artigo de pesquisa ou referência que afirmasse que o tráfego de “bots maliciosos” é tão insignificante como você está afirmando aqui.

Peço desculpas se discordar de você o desagrada. Forneci referências e posso fornecer mais (não é minha opinião), caso você esteja aberto aos fatos sobre o tráfego na Internet.

Caso contrário, vou parar de postar sobre esse tópico para não te incomodar :slight_smile:, já que não quero ser desagradável com você sobre algo sobre o qual você tem uma opinião forte em um fórum onde não tenho poder de administrador :slight_smile:

Boas festas!

Talvez para as redes de publicidade que estão travando uma batalha mortal contra bots e cliques falsos em busca de dólares da publicidade. Mas na Stack Overflow e no Discourse? É, em grande parte, um problema irrelevante.

Se você gosta de debater hipóteses baseadas em teorias, à vontade, vá em frente. Passe o dia inteiro, todos os dias, teorizando à vontade. Espero que essa teorização traga muita alegria e felicidade à sua vida! Enquanto isso, temos negócios para gerenciar, então prefiro tomar decisões com base nos dados reais que coletamos em nossos negócios reais. Acho que sou um pouco maluco desse jeito. Desculpe se isso o incomoda ou o deixa perplexo.

Tenha um ótimo resto do seu dia!

Hmm… pode ser que eu esteja perdendo algo, mas a pesquisa que você linkou acima não parece realmente mostrar tendências gerais na web.

Parece estar focada em exibir o tráfego de um site de uma maneira que torna a identificação e quantificação… questionável… de tráfego um exercício visual bastante simples, o que por si só parece interessante. No entanto, não há indicação de quais sites foram representados, nem mesmo quais tipos de site. É difícil avaliar se os exemplos mostrados são representativos da web como um todo.

Nota: Não estou questionando se o tráfego de bots é grande em geral, nem se há muitos bots “ruins”… mas as estatísticas (que podem ser encontradas no Google) parecem ter uma certa dispersão em relação ao resultado de pesquisa que você capturou na tela.

O que poderia ser mais útil seria uma análise estatística de quais tipos de sites tendem a ser alvo agressivo de quais tipos de bots. (Eu esperaria, por exemplo, que o Facebook e plataformas similares atraiam uma quantidade desproporcionalmente grande de atenção de um certo segmento desses bots. Outro segmento provavelmente ataca sites ricos em anúncios de forma quase exclusiva.)

Olá, Jeff,

Se você quer me pintar como um “teórico maluco” que não entende nada de operações de rede na internet, então seja como for; mas nada poderia estar mais longe da verdade, como qualquer pessoa que me conhece já sabe :slight_smile:

O OP teve um pico. Foi mais do que provável que tenha sido causado por um bot. Acredito que podemos concordar com isso :slight_smile:

Tenha um ótimo dia, Jeff, e umas férias fantásticas!

Além disso, obrigado por me apresentar ao Ruby on Rails. Se não fosse por você e pelo Discourse, eu não estaria escrevendo código Ruby todos os dias (fora do Discourse), e isso foi a melhor coisa técnica que aconteceu comigo em 2020! Eu simplesmente amo Ruby.

Obrigado novamente, Jeff!

Olá @Sailsman63

Forneci algumas referências suplementares em diversas áreas; e não publiquei, nem aleguei publicar, um trabalho detalhado ou uma pesquisa de todo o tráfego da Internet em todos os cenários operacionais.

Na minha opinião, qualquer engenheiro que dedique pelo menos 60 minutos de pesquisa na Internet e possua habilidades razoáveis de pesquisa e análise irá (1) encontrar muitas referências a relatórios operacionais (não teóricos) sobre qual porcentagem do tráfego de rede na Internet é atribuída a bots e (2) encontrar várias referências que também quantificam quanto desse tráfego é feito por “bots maliciosos” que não respeitam o robots.txt.

Isso não é “teoria” ou “minha ideia”. É um fato bem estabelecido e esse fato não está escondido de ninguém que se interesse em investigar; e, do ponto de vista operacional, vemos o mesmo todos os dias ao analisar arquivos de log e processar o comportamento do tráfego em sites, como a configuração de armadilhas (honeypots) que apenas bots conseguem encontrar (usuários humanos normais nunca vão até lá) e, portanto, apenas bots vão até lá, etc.

Configurei muitos “links-armadilha” em sites e capturei muitos bots ao longo dos meus dias; então isso não é algo que eu simplesmente inventei “do nada”, rs :). Outros na internet fizeram o mesmo (é uma técnica comum de cibersegurança), não sou apenas eu, prometo :slight_smile:

Tenha um ótimo dia!