Le visualizzazioni anonime aumentano improvvisamente molto

agemo · 15 Gennaio 2023, 12:43pm

Non so mai cosa pensare dei numeri delle visualizzazioni anonime, ma non sembrano mai corrispondere ai dati di Google Analytics in modo significativo.

Gli ultimi quattro giorni circa hanno messo a fuoco questo problema perché c’è stato un enorme aumento sostenuto delle visualizzazioni anonime, il che è insolito.

Potrebbe essere una coincidenza dopo l’aggiornamento a 3/3.1, ma potrebbe essere correlato poiché è iniziato poco dopo.

Vedendo anche che le statistiche di accesso sembrano essere diminuite in modo significativo, questo è preoccupante.

In generale, è difficile capire i numeri delle visualizzazioni di accesso poiché non corrispondono ai numeri di Analytics, ma guardando solo la dashboard, c’è una strana nuova tendenza.

In termini di disparità tra Google Analytics e le statistiche della dashboard, ecco un semplice esempio: vedi 500 visite uniche di Google Analytics per un giorno, ma sulla dashboard di Discourse 2000 accessi, 50000 visualizzazioni anonime e 5000 crawler.

Cosa sta succedendo in generale con queste statistiche?

Come dovremmo trattare i dati e cosa possono dirci in termini di gestione di un forum Discourse?

Le visualizzazioni anonime sono un’indicazione di traffico indesiderato e uno spreco di risorse?

Tale traffico viene filtrato da Google Analytics se si seleziona l’opzione corretta - forse non è dal lato Discourse e potrebbe indicare che si tratta di un qualche tipo di traffico di basso livello di tipo DDOS per qualsiasi motivo bizzarro e spurio, ancora una volta sprecando risorse ma potenzialmente influenzando gli accessi reali?

Nessuna segnalazione finora di problemi di accesso.

Nel complesso, come interpretiamo i numeri della dashboard?

Grazie per qualsiasi intuizione e suggerimento.

LiraLemur · 5 Luglio 2024, 10:18am

Ciao @agemo!

Vedo un comportamento simile anche negli ultimi mesi. Sei riuscito a scoprire qualcosa a riguardo?

agemo · 10 Luglio 2024, 1:35pm

Probabilmente bot, forse bot di scraping AI.

Ciò che mi ha aiutato immensamente sono stati i report sui web crawler nell’area admin dopo che mi è stato segnalato della loro esistenza (non li avevo mai notati prima) usandoli ho bannato vari crawler. Il che ha ridotto le visualizzazioni anonime. Penso che i crawler arrivino anche tramite visualizzazioni anonime. Non ho idea di come.

I report ti danno anche i nomi dei crawler (user agent) da cercare su ciascun crawler per vedere se ha valore.

Questo argomento potrebbe anche essere utile

Architect · 10 Luglio 2024, 1:46pm

Potrebbe essere, non so nemmeno io come, a parte che immagino dipenda da come il sistema identifica i bot rispetto agli utenti.

Ho visto picchi di crawler quando viene pubblicato più testo, anche un picco apparentemente casuale di visualizzazioni anonime qualche giorno fa.

JammyDodger · 10 Luglio 2024, 2:01pm

Abbiamo una nuova metrica in vigore che suddivide le visualizzazioni di pagina anonime in ‘probabilmente umane’ e ‘probabilmente bot’, in modo che le persone possano considerare quest’ultime più simili ai crawler (cosa che probabilmente sono, ma non si identificano come tali).

Il report fa parte di quelli standard e si trova su /admin/reports/consolidated_page_views_browser_detection

Sono in corso anche altri lavori per applicare questo alle metriche di visualizzazione degli argomenti, al fine di prevenire il gonfiamento da parte dei bot.

Architect · 11 Luglio 2024, 10:18pm

Questo nuovo grafico è utile, sembra che la categoria ‘probabilmente bot’ sia etichettata come ‘altre visualizzazioni di pagina’:

Con i nuovi bot furbi che non si presentano correttamente, c’è un modo per rallentarli o identificarne la fonte?

Posso controllare i report degli user agent dei web crawler, ma se non compaiono lì non sono sicuro di cos’altro indagare.

Jagster · 12 Luglio 2024, 6:58am

No. Se il programmatore di quel bot ha lavorato come spesso accade, il che significa che c’è una parte del testo nell’user agent, nel dispositivo, nel sistema, ecc. che è sempre la stessa, allora puoi bloccarli completamente, ma hai bisogno di un reverse proxy. robots.txt è solo una linea guida per i bot che si comportano bene.

I log di Discourse danno più o meno solo un’idea generale. Dati così dettagliati devi estrarli dai log di Nginx, il che significa benvenuto nella console

WordPress può facilmente andare in ginocchio a causa dei bot, ma con Discourse la situazione è più che altro fastidiosa. Il furto di contenuti è la norma di oggi, e lo è da molto tempo ormai.

Architect · 12 Luglio 2024, 4:08pm

Un Reverse Proxy sembra un buon primo passo, Cloudflare è adatto a questo scopo?

Conosco un amico sviluppatore web locale che ha consigliato di utilizzare i nameserver di Cloudflare per la sicurezza, dicendo che può essere utile.

Non sono troppo preoccupato che i contenuti pubblicati vengano “rubati”, quando il testo viene pubblicato pubblicamente le persone hanno il diritto di registrarlo finché non cercano di venderlo come propria creazione, il che diventerebbe un problema.

Jagster · 12 Luglio 2024, 4:10pm

Suggerirei Nginx o Varnish. Ma forse funziona anche Cloudflare, non lo conosco, non l’ho mai usato.

Architect · 18 Agosto 2024, 2:25am

Ieri, 17 agosto, si è verificato un insolito picco di visualizzazioni di pagine “altre” da parte di bot, pari a 152, molto casuale per un sito per lo più inattivo che di solito ne ha solo circa 15-20 al giorno.

Jagster · 18 Agosto 2024, 7:35am

Tutto normale. Per me ho ottenuto i migliori risultati bloccando insieme i peggiori user agent e il geo-blogging (il mio non è un forum globale, quindi posso farlo facilmente).

Architect · 18 Agosto 2024, 10:26am

Intendi il geo-banning degli indirizzi IP di paesi diversi dalla Finlandia? Sembra una buona idea per i siti focalizzati a livello locale.

Jagster · 18 Agosto 2024, 10:39am

Sì. Al momento ricevo molto traffico da Russia, Singapore e Cina. In precedenza era India, Pakistan, Egitto, Iran e Iraq. E scommetto che non possono finire È possibile con la Russia, però, ma… no.

I tre più grandi sono USA, Francia e Paesi Bassi, e la Germania sta crescendo. Ma questo è dovuto ai data center ed è per questo che non posso vietarli.

Ma di nuovo, con Discourse quelli sono principalmente solo fastidiosi. Con WordPress (e direi anche altri stack LAMP) quelli creano un carico così grande che la situazione inizia ad essere più vicina a un DDoS.

E la maggior parte sono di stupidi script kiddies che cercano di abbattere Discourse usando vecchi problemi di WordPress.

Ma al giorno d’oggi i bot SEO e AI hanno iniziato a essere un vero punto interrogativo.

Ma se si ha un forum locale, allora il geo-ban è solo una mossa saggia.

agemo · 21 Giugno 2025, 9:36pm

Questo potrebbe assumere un ritmo problematico.

Ho visto quello che sospetto essere traffico di bot abilitato dall’IA che si stava avvicinando a un livello di interruzione DDOS poiché il servizio di discourse ha iniziato a lamentarsi.

Non è un’installazione molto potente, ma per la domanda normale prevista c’è un certo margine, normalmente.

Questa volta si è manifestato come un enorme traffico anonimo e altro.

Questo si è mappato perfettamente alle statistiche aumentate di CPU del server, carico e I/O del disco.

Come utente qui ho ricevuto molte critiche e molti (temporanei) ban per aver criticato l’adozione eccessivamente entusiasta dell’IA, che ora sta tornando indietro in molti modi (come la perdita di posti di lavoro, ma e ora questo, che potrebbe essere una continuazione dell’OP e non è altro che l’ultimo traffico di bot web abilitato dall’IA che si fa conoscere, oh boy.

Allora la mia opinione era che fosse (anche) il momento di pensare a tutte le strategie per mitigare per il cliente/utente finale, non semplicemente unirsi alla corsa agli armamenti come partner secondario, quella logica in stile Musk è se non puoi batterli unisciti a loro in questo caso, facile a dirsi, ma non l’opzione corretta e la richiesta di regolamentazione ingenua.

Farsi da parte?

Forse è troppo tardi adesso.

Il traffico AI potrebbe arrivare in modo più simile a quello umano: tecnicamente non so come funzioni (ma so come siamo arrivati qui) se non che probabilmente si spaccia più facilmente per traffico umano e presenta un traffico più non rilevabile che sembra anche desiderabile dal punto di vista di Google, ma oh caro, questo potrebbe essere un problema nuovo più grande.

Niente è mai GRATIS, non so quanti (di nuovo) siano stati così accecati da questo e non abbiano applicato la cautela umana e scelto un’opzione di stand back.

Al momento quel traffico arriva ancora da regioni molto specifiche e anche i blocchi ASN sono sufficienti per eliminare chirurgicamente il calore.

Per quanto tempo?

ryan_olsen · 21 Giugno 2025, 10:48pm

Questo è abbastanza normale, gestisco molti siti e CloudFlare mostra solitamente da 10 a 30 volte il mio traffico reale. Se non attivano l’analisi, sono bot o crawler dei motori di ricerca. Poiché la maggior parte dei bot non eseguirà Javascript utilizzato per l’analisi.

ryan_olsen · 21 Giugno 2025, 10:50pm

CloudFlare è gratuito

agemo · 21 Giugno 2025, 10:51pm

Questi sono apparsi in Google Analytics. Quella era la differenza, se non ricordo male.

ryan_olsen · 21 Giugno 2025, 10:53pm

Se sei veramente preoccupato, usa CloudFlare e implementa un firewall per bloccare i paesi problematici. Se il tuo IP era già presente nel DNS, ottieni un nuovo indirizzo IP. Questo, se sei sotto attacco.

agemo · 21 Giugno 2025, 11:01pm

In effetti, il server era già sul DNS di CF ma non in proxy poiché pensavo ancora che non funzionasse dai vecchi consigli di configurazione. Sai, la paura della nuvola arancione è forte.

Tuttavia, l’ho provato durante una delle ondate e ho mitigato il volume relativamente facilmente dopo un po’ di osservazione. Sembra che abbia eliminato molto più traffico oltre a questo.

L’unico modo per ottenere un nuovo indirizzo IP è passare a un nuovo server?

ryan_olsen · 21 Giugno 2025, 11:08pm

Dipende dal tuo servizio di hosting. Alcuni, come DigitalOcean, possono semplicemente assegnare un nuovo indirizzo IP statico nella dashboard, altri. Potrebbe essere necessario chiedere loro. Non lo spengo mai. Se spengo la nuvola arancione, considero quell’IP compromesso. Se perdi traffico accendendolo, è probabile che le impostazioni SSL non siano corrette. O la cache non è corretta. Fare scambi live con CloudFlare può essere complicato se non hai già impostato correttamente SSL. Poiché è difficile ottenere un indirizzo IP non memorizzato nella cache dal DNS per testarlo.

Argomento		Risposte	Visualizzazioni
Pageviews from Anonymous Users have exploded but Google Analytics showed no traffic growth. How to find about where the increase come from? Data & reporting	23	2384	Gennaio 5, 2021
Sudden drop in traffic Community Building	40	4209	Dicembre 15, 2022
freeCodeCamp.org Discourse is Collapsing from Spammer Scripts Self-hosting	16	5106	Luglio 3, 2020
How can I figure out why I have a big jump in anonymous pageviews Data & reporting	10	1257	Marzo 9, 2022
Traffic Dashboard Stats Feature feedback	31	9009	Maggio 16, 2016

Le visualizzazioni anonime aumentano improvvisamente molto

Argomenti correlati