Le pageview degli utenti anonimi sono esplose ma Google Analytics non ha mostrato crescita del traffico. Come scoprire da dove proviene l'aumento?

Negli ultimi due settimane, le visualizzazioni di pagina (PV) da parte di utenti anonimi sono esplose. Tuttavia, Google Analytics (GA) racconta una storia diversa. Come puoi vedere, GA ha persino mostrato un lieve calo. Mi fa piacere vedere la crescita, ma vorrei saperne di più sull’origine di queste improvvisi visualizzazioni di pagina da parte di utenti anonimi.

Esiste un modo per visualizzare i siti di riferimento per gli utenti anonimi?

Ho trovato questo post precedente: Is the info Top Referred Topics/ Top Traffic Sources stored in a table in the database? - #9 by simon. È questo il passo giusto da compiere?

Ciao @zhenniwu

Questa non è “crescita”. Il tuo sito è stato molto probabilmente visitato da un bot malintenzionato che non segue alcuna regola del file robots.txt ed è già segnalato da Google come “bot malintenzionato”, quindi il loro traffico viene filtrato dalle loro statistiche.

C’è poco o nulla che tu possa fare a riguardo, a meno che tu non sia disposto a investire molto tempo ed energia nel rilevamento e nel blocco dei bot, il che è per lo più una perdita di tempo (per la maggior parte delle persone).

È semplicemente “la vita su internet come la conosciamo” e, per la maggior parte, non vale nemmeno la pena prestare attenzione a questo.

@neounix Grazie mille per i tuoi suggerimenti! Hanno confermato i nostri sospetti. Stiamo per ricevere un aggiornamento da Discourse e speriamo che questo limiti i bot malfunzionanti. Continueremo a monitorare le PV provenienti da utenti anonimi.

A proposito, sai se esiste un modo per confermare se si tratta di un bot o meno? Grazie ancora per il tuo aiuto!

Ciao @zhenniwu,

Hai già confermato che si tratta di un bot osservando il suo comportamento e rendendoti conto che è un’anomalia.

Rilevare i bot è semplice quando la stringa user agent (UA) del client dichiara in un modo o nell’altro “SONO UN BOT”. Tuttavia, i “bot ribelli” non dichiarano di essere bot nelle loro stringhe UA, quindi dobbiamo rilevare i bot e attività simili basandoci sul loro comportamento.

Puoi scrivere del codice per automatizzare questo processo se lo desideri; tuttavia, rilevare tutte le categorie di bot non è banale, poiché esistono molte caratteristiche comportamentali diverse dei bot, non solo in base alla frequenza delle richieste (come stai osservando).

Prima di iniziare a costruire una soluzione di rilevamento, devi chiederti: “cosa stai cercando di ottenere rilevandoli?”.

Perché ti interessa? @zhenniwu

A proposito, ecco un articolo di luglio 2017 scritto da un editor di Research Gate proprio su questo argomento. Buona lettura!

https://www.researchgate.net/blog/post/researchers-render-cyberspace-in-3d-like-a-video-game-to-make-identifying-threats-easier

Pensi che questo sia anche il cambiamento robots che abbiamo apportato per Google, @sam?

Potrebbe certamente essere il caso, ma l’unico modo per esserne certi è vedere il traffico effettivo.

La stragrande maggioranza dei bot non rispetta il file robots.txt.

In effetti, molti bot malintenzionati leggono proprio il robots.txt per ottenere informazioni sulle aree in cui gli amministratori non desiderano che i bot si rechino, per poi tentare di recuperare dati da quelle stesse aree!

In altre parole, il file robots.txt non è efficace nel controllare il comportamento del 99,9% (basti scegliere una percentuale molto alta) dei bot presenti su Internet; inoltre, può anche esporre informazioni su aree “sensibili” di un sito.

Non è vero, sulla base dei nostri 7 anni di attività nel settore dell’hosting. Sono certo che esistano bot dannosi, ma sono tutt’altro che comuni.

Capisco. Quindi questa esplosione potrebbe non essere dovuta a bot non autorizzati.

@codinghorror @sam, siamo felici di fornire i nostri dati per qualsiasi analisi e debug. Fatemi sapere di cosa avete bisogno e ve li invierò. Grazie in anticipo!

Ciao Jeff!

Allora sei fortunato! Ho allegato un articolo su ResearchGate intitolato “Virtualized Cyberspace - Visualizing Patterns & Anomalies for Cognitive Cyber Situational Awareness” che mostra alcune parti del problema che ho descritto!

Inoltre, tanto per dire, ecco la nostra “breve” lista parziale di stringhe User Agent che NON rispettano robots.txt e che scansionano i nostri siti (aggiornata):

AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot

La lista sopra è solo parziale e non è stata aggiornata da molto tempo; quindi non è “perfetta” ed è piuttosto “arrugginita”… :slight_smile:

La nostra esperienza diretta nel corso di due decenni, inclusa la scrittura di molto codice per il rilevamento e la visualizzazione dei bot (e la pubblicazione di numerosi articoli, video e presentazioni su questo argomento), ci dice che solo una manciata di bot rispetta robots.txt e quelli che rispettano le direttive provengono da grandi aziende come Google, Bing (Microsoft), ecc.

I bot più aggressivi falsificano la propria stringa User Agent in modo da apparire come stringhe User Agent “non bot”.

Inoltre, i principali trasgressori sono bot provenienti da Cina, Russia e Corea; e abbiamo codice plugin per i nostri forum legacy che rileva questi bot malfunzionanti basandosi su tecniche honey pot e altri modelli comportamentali. Puoi vedere alcuni dei risultati nell’articolo allegato, che presenta belle immagini colorate dei bot nello cyberspazio da ammirare.

Ad esempio, dalla nostra esperienza e dalla ricerca diretta sulla visualizzazione della cybersecurity, tutti i bot elencati nel robots.txt predefinito di Discourse non rispettano robots.txt, inclusi DotBot, semrushbot e ahrefsbot (abbiamo avuto un grosso problema con ahrefsbot, evidenziato in un’altra presentazione, vedi illustrazione):

User-agent: DotBot
Disallow: /

User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /

In un lontano passato, elencavamo questi stessi bot sopra (e molti altri!) nel file robots.txt (e continuiamo a farlo) e abbiamo scoperto che “quasi nessuno” dei bot elencati rispetta le direttive di robots.txt.

Se i tuoi siti di hosting hanno un’esperienza diversa, sei molto fortunato!

Abbiamo effettuato test estesi e scritto molto codice di visualizzazione e sappiamo per certo, grazie a ricerche sottoposte a revisione paritaria, che la maggior parte dei bot non rispetta robots.txt e solo una manciata di bot delle “principali aziende tecnologiche” lo fa.

Sebbene questo articolo che abbiamo scritto (di seguito) non elenchi tutti i bot, ti dà un esempio di quanto abbiamo testato estesamente e scritto codice (nel motore di gioco Unity e su piattaforme LAMP) in quest’area:

https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness

Abbiamo anche allegato questo articolo come riferimento, quindi non è necessario scaricarlo da ResearchGate.

Buona lettura!

Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)

PS: Intendo portare molto del mio codice legacy di rilevamento dei bot da LAMP a Rails nel 2021, se avrò tempo!

Vedi anche:

https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace

(allegato anche di seguito)

anomalies_cyberspace_v01.pdf (3.3 MB)

Esempio grafico da una presentazione, che mostra oltre 200 bot Baidu cinesi camuffati da utenti normali (usando una stringa UA utente normale, non una “stringa bot”), che estraggono un sito da indirizzi IP del Brasile (non dalla Cina).

Curiosi di vedere quali sono le modifiche. C’è un commit/CL?

Esatto, e i nostri clienti urlerebbero allo scandalo se fosse così, perché vengono di fatto addebitati per ogni visualizzazione di pagina. I bot non autorizzati che generano un numero eccessivo di visualizzazioni di pagina comportano costi per loro e li porterebbero ad abbandonare la nostra piattaforma di hosting. È per questo motivo, ad esempio, che abbiamo limitato fortemente Bing: se sei curioso, puoi fare una ricerca.

Quindi sì, i nostri oltre 7 anni di esperienza nell’hosting hanno dimostrato che i crawler web e i bot non autorizzati, pur esistendo, non rappresentano un problema significativo.

(Direi la stessa cosa per Stack Overflow, che è una delle prime 100 proprietà web e che ho co-fondato.)

Ciao Jeff!

Che bella conversazione!

Non molto tempo fa ero in una conferenza telefonica con il CFO di una delle più grandi reti pubblicitarie tecniche con sede a New York, e mi ha detto che loro (e i loro inserzionisti) considerano il traffico dei bot (fuorilegge e non) una delle loro principali preoccupazioni e spendono molto denaro proprio su questo argomento (classificare il traffico utente legittimo dal traffico dei bot).

Quindi hai davvero molta fortuna se i tuoi siti web non stanno affrontando gli stessi problemi che affliggono Wall Street e i suoi inserzionisti, che combattono costantemente contro questo fenomeno.

Per essere onesto, molte aziende con cui ho lavorato in ambito cybersecurity e antifrode negli ultimi due decenni hanno avuto un’esperienza esattamente opposta a quella che descrivi.

Ottimo lavoro, Jeff!

A proposito, potresti trovare interessante questo. È “datato” (di cinque anni fa), ma il problema non è migliorato dal 2015:

Citazione da CSOonline sopra (2015):

“I bot buoni” hanno rappresentato il 36% del traffico quest’anno, in aumento rispetto al 21% dello scorso anno. I “bot cattivi” sono stati responsabili del 23% del traffico quest’anno, leggermente in calo rispetto al 24% dello scorso anno – non perché i volumi fossero diminuiti, ha ribadito Essaid, ma perché il numero di “bot buoni” è aumentato drasticamente. Il traffico umano era solo il 41%, in calo rispetto al 55% dello scorso anno.

L’azienda definisce “bot cattivi” quelli che non rispettano i file “robots.txt” e non forniscono valore ai siti che visitano.

Proverò a trovare alcuni riferimenti più vicini al 2020 e pubblicherò di nuovo, dato che il 2015 è un po’ datato a cinque anni di distanza!

La mia esperienza con i clienti di cybersecurity è che i numeri del traffico dei “bot cattivi” sono molto più alti nel 2020 rispetto al rapporto CSO del 2015 sopra citato; quindi chiunque non abbia un problema di “bot cattivi” è davvero molto fortunato! Abbiamo scritto molto su “rilevare e classificare i bot cattivi” nell’ultimo decennio ed è un problema, poiché i programmatori di bot diventano sempre più “astuti” :slight_smile: e sono bravi a cambiare le loro stringhe UA (insieme ai tempi e al comportamento dei bot) per sembrare traffico umano legittimo (molto prima dell’esistenza di CloudFlare).

È davvero positivo sentire da Jeff che i siti Discourse sono praticamente immuni a questo traffico di “bot cattivi” e non hanno bisogno di codice complesso di rilevamento dei bot per mitigare i problemi con cui altri lottano.

Tutti gli hosting Discourse sono dietro CloudFlare? CloudFlare è progettato per proteggersi da questo.

Come ho detto, saremmo letteralmente fuori dal giro se quanto hai descritto (bot ribelli onnipresenti che scaricano milioni di pagine al secondo) fosse vero, quindi immagino sia una sorta di miracolo! Non so come spiegare questo conflitto tra ciò che credi sia vero e le reali dinamiche aziendali che ho vissuto a Stack Overflow (2008-2012) e Discourse (2012-oggi).

D’altra parte, le reti pubblicitarie e i bot sono una questione molto diversa: i bot che fingono di essere utenti e cliccano sugli annunci sono un modo per stampare denaro “gratuito” per gli autori dei bot.

Forse la differenza sta nel fatto che la maggior parte dei nostri clienti non si basa sulla pubblicità? E anche a Stack Overflow, gli annunci display erano una piccola parte del business. Potrebbe essere una buona idea tenere a mente questa differenza cruciale quando rifletti su questo argomento.

Ciao Jeff,

Per tua informazione, è una conoscenza piuttosto diffusa, non la mia opinione personale, che il traffico dei bot supera quello degli umani su Internet.

È anche una conoscenza comune, non la mia opinione personale, che una grande percentuale del traffico dei bot provenga da bot che non rispettano il file robots.txt. Alcune stime indicano almeno la metà; la mia esperienza è che dipende dal sito e dall’argomento.

Sono contento che tu abbia avuto un’esperienza diversa nelle aziende che hai fondato e costruito, e me ne rallegro per te.

D’altra parte, il fatto su Internet è che nel 2020 il traffico dei bot rappresentava circa tra il 55% e il 60% di tutto il traffico; e di quel traffico dei bot, forse circa la metà proveniva da bot che non rispettano robots.txt. Alcune ricerche collocano la cifra dei “bot cattivi” fino al 35% di tutto il traffico, altre più in alto, a seconda dello studio. Non sto inventando nulla, è ampiamente documentato.

Se hai documenti di ricerca o statistiche, oltre alla tua esperienza nell’hosting su Discourse o nelle tue esperienze precedenti, che dimostrino che il “traffico di bot cattivi” sia di entità trascurabile, sarei molto lieto di leggerli; perché personalmente non ho mai visto alcun documento di ricerca o articolo di riferimento che affermi che il traffico dei “bot cattivi” sia così trascurabile come stai sostenendo qui.

Mi scuso se il mio disaccordo ti dispiace. Ho fornito riferimenti e posso fornirne altri (non la mia opinione), se sei aperto ai fatti sul traffico Internet.

Altrimenti, smetterò di scrivere su questo argomento per non infastidirti :slight_smile:, poiché non voglio essere in disaccordo con te su qualcosa per cui hai una forte opinione in un forum dove non ho poteri di amministratore :slight_smile:

Buone feste!

Forse per le reti pubblicitarie impegnate in una lotta mortale contro i bot e i click falsi per i dollari della pubblicità. Ma su Stack Overflow e Discourse? È in gran parte un problema irrilevante.

Se ti piace discutere di ipotesi basate su teorie, pure, fai pure a tuo piacimento. Passa l’intera giornata a teorizzare a tuo cuore agio. Spero che questa teorizzazione ti porti grande gioia e felicità nella vita! Nel frattempo abbiamo aziende da gestire, quindi preferisco prendere decisioni basate sui dati reali che abbiamo raccolto nelle nostre aziende reali. Immagino che io sia un po’ pazzo in questo senso. Scusa se questo ti dà fastidio o ti lascia perplesso.

Ti auguro il resto della giornata più meraviglioso possibile!

Hmm… potrei aver perso qualcosa, ma la ricerca che tu hai linkato sopra non sembra effettivamente mostrare tendenze generali sul web.

Sembra focalizzata sulla visualizzazione del traffico verso un sito in modo da rendere piuttosto semplice, a livello visivo, individuare e quantificare… un traffico… discutibile… il che di per sé sembra interessante. Tuttavia, non c’è alcuna indicazione su quali siti fossero rappresentati, né tantomeno su quali tipi di siti. È difficile valutare se gli esempi mostrati siano rappresentativi del web nel suo complesso.

Nota: non sto mettendo in dubbio se il traffico dei bot sia in generale enorme, né se ci siano molti bot “dannosi”… ma le statistiche (ricercabili su Google) sembrano presentare una certa dispersione rispetto al risultato di ricerca che hai catturato nello screenshot.

Ciò che potrebbe essere più utile sarebbe un’analisi statistica di quali tipi di siti tendono ad essere presi di mira in modo aggressivo da quali tipi di bot. (Mi aspetterei, ad esempio, che Facebook e piattaforme simili attirino una quantità sproporzionatamente alta di attenzione da parte di una certa categoria di questi bot. Un’altra categoria probabilmente si rivolge quasi esclusivamente a siti ricchi di pubblicità.)

Ciao Jeff,

Se vuoi dipingermi come un “teorico pazzo” che non ha idea delle operazioni di rete su Internet, sia pure; ma nulla potrebbe essere più lontano dalla verità, come chiunque mi conosca sa già :slight_smile:

L’OP ha avuto un picco. È molto probabile che sia stato causato da un bot. Credo che possiamo essere d’accordo su questo :slight_smile:

Ti auguro una splendida giornata, Jeff, e delle fantastiche festività!

Inoltre, grazie per avermi introdotto a Ruby on Rails. Se non fosse stato per te e Discourse, non scriverei codice Ruby ogni giorno (al di fuori di Discourse), ed è stata la cosa tecnica migliore che mi sia accaduta nel 2020! Adoro semplicemente Ruby.

Grazie ancora, Jeff!

Ciao @Sailsman63

Ho fornito alcuni riferimenti supplementari in diverse aree; non ho pubblicato, né ho affermato di pubblicare, un lavoro dettagliato o un sondaggio su tutto il traffico Internet in ogni scenario operativo.

A mio avviso, qualsiasi ingegnere che dedichi almeno 60 minuti di ricerca su Internet e possieda ragionevoli capacità di ricerca e analisi (1) troverà numerosi riferimenti a rapporti operativi (non teorie) su quale percentuale del traffico di rete su Internet sia attribuita ai bot e (2) troverà diversi riferimenti che quantificano anche quanto di quel traffico sia generato da “bot cattivi” che non rispettano robots.txt.

Questo non è “teoria” o “la mia idea”. È un fatto ben consolidato e questo fatto non è nascosto a chiunque abbia la curiosità di indagare; e da un punto di vista operativo, vediamo la stessa cosa ogni giorno quando analizziamo i file di log e elaboriamo il comportamento del traffico sui siti web, ad esempio impostando trappole (honeypot) che solo i bot possono trovare (gli utenti umani normali non ci vanno mai) e quindi solo i bot ci vanno, ecc.

Ho impostato molti “link trappola” su siti web e ho catturato molti bot nel corso degli anni; quindi non è qualcosa che ho inventato “dal nulla”, LOL :). Anche altri su Internet hanno fatto lo stesso (è una tecnica comune di cybersecurity), non sono solo io, te lo prometto :slight_smile:

Buona giornata!