Le visualizzazioni anonime aumentano improvvisamente molto

Non so mai cosa pensare dei numeri delle visualizzazioni anonime, ma non sembrano mai corrispondere ai dati di Google Analytics in modo significativo.

Gli ultimi quattro giorni circa hanno messo a fuoco questo problema perché c’è stato un enorme aumento sostenuto delle visualizzazioni anonime, il che è insolito.

Potrebbe essere una coincidenza dopo l’aggiornamento a 3/3.1, ma potrebbe essere correlato poiché è iniziato poco dopo.

Vedendo anche che le statistiche di accesso sembrano essere diminuite in modo significativo, questo è preoccupante.

In generale, è difficile capire i numeri delle visualizzazioni di accesso poiché non corrispondono ai numeri di Analytics, ma guardando solo la dashboard, c’è una strana nuova tendenza.

In termini di disparità tra Google Analytics e le statistiche della dashboard, ecco un semplice esempio: vedi 500 visite uniche di Google Analytics per un giorno, ma sulla dashboard di Discourse 2000 accessi, 50000 visualizzazioni anonime e 5000 crawler.

Cosa sta succedendo in generale con queste statistiche?

Come dovremmo trattare i dati e cosa possono dirci in termini di gestione di un forum Discourse?

Le visualizzazioni anonime sono un’indicazione di traffico indesiderato e uno spreco di risorse?

Tale traffico viene filtrato da Google Analytics se si seleziona l’opzione corretta - forse non è dal lato Discourse e potrebbe indicare che si tratta di un qualche tipo di traffico di basso livello di tipo DDOS per qualsiasi motivo bizzarro e spurio, ancora una volta sprecando risorse ma potenzialmente influenzando gli accessi reali?

Nessuna segnalazione finora di problemi di accesso.

Nel complesso, come interpretiamo i numeri della dashboard?

Grazie per qualsiasi intuizione e suggerimento.

4 Mi Piace

Ciao @agemo!

Vedo un comportamento simile anche negli ultimi mesi. Sei riuscito a scoprire qualcosa a riguardo?

Probabilmente bot, forse bot di scraping AI.

Ciò che mi ha aiutato immensamente sono stati i report sui web crawler nell’area admin dopo che mi è stato segnalato della loro esistenza (non li avevo mai notati prima) usandoli ho bannato vari crawler. Il che ha ridotto le visualizzazioni anonime. Penso che i crawler arrivino anche tramite visualizzazioni anonime. Non ho idea di come.

I report ti danno anche i nomi dei crawler (user agent) da cercare su ciascun crawler per vedere se ha valore.

Questo argomento potrebbe anche essere utile

3 Mi Piace

Potrebbe essere, non so nemmeno io come, a parte che immagino dipenda da come il sistema identifica i bot rispetto agli utenti.

Ho visto picchi di crawler quando viene pubblicato più testo, anche un picco apparentemente casuale di visualizzazioni anonime qualche giorno fa.

Abbiamo una nuova metrica in vigore che suddivide le visualizzazioni di pagina anonime in ‘probabilmente umane’ e ‘probabilmente bot’, in modo che le persone possano considerare quest’ultime più simili ai crawler (cosa che probabilmente sono, ma non si identificano come tali).

Il report fa parte di quelli standard e si trova su /admin/reports/consolidated_page_views_browser_detection

Sono in corso anche altri lavori per applicare questo alle metriche di visualizzazione degli argomenti, al fine di prevenire il gonfiamento da parte dei bot.

3 Mi Piace

Questo nuovo grafico è utile, sembra che la categoria ‘probabilmente bot’ sia etichettata come ‘altre visualizzazioni di pagina’:

Con i nuovi bot furbi che non si presentano correttamente, c’è un modo per rallentarli o identificarne la fonte?

Posso controllare i report degli user agent dei web crawler, ma se non compaiono lì non sono sicuro di cos’altro indagare.

1 Mi Piace

No. Se il programmatore di quel bot ha lavorato come spesso accade, il che significa che c’è una parte del testo nell’user agent, nel dispositivo, nel sistema, ecc. che è sempre la stessa, allora puoi bloccarli completamente, ma hai bisogno di un reverse proxy. robots.txt è solo una linea guida per i bot che si comportano bene.

I log di Discourse danno più o meno solo un’idea generale. Dati così dettagliati devi estrarli dai log di Nginx, il che significa benvenuto nella console :smirking_face:

WordPress può facilmente andare in ginocchio a causa dei bot, ma con Discourse la situazione è più che altro fastidiosa. Il furto di contenuti è la norma di oggi, e lo è da molto tempo ormai.

2 Mi Piace

Un Reverse Proxy sembra un buon primo passo, Cloudflare è adatto a questo scopo?

Conosco un amico sviluppatore web locale che ha consigliato di utilizzare i nameserver di Cloudflare per la sicurezza, dicendo che può essere utile.

Non sono troppo preoccupato che i contenuti pubblicati vengano “rubati”, quando il testo viene pubblicato pubblicamente le persone hanno il diritto di registrarlo finché non cercano di venderlo come propria creazione, il che diventerebbe un problema.

1 Mi Piace

Suggerirei Nginx o Varnish. Ma forse funziona anche Cloudflare, non lo conosco, non l’ho mai usato.

2 Mi Piace

Ieri, 17 agosto, si è verificato un insolito picco di visualizzazioni di pagine “altre” da parte di bot, pari a 152, molto casuale per un sito per lo più inattivo che di solito ne ha solo circa 15-20 al giorno.

Tutto normale. Per me ho ottenuto i migliori risultati bloccando insieme i peggiori user agent e il geo-blogging (il mio non è un forum globale, quindi posso farlo facilmente).

Intendi il geo-banning degli indirizzi IP di paesi diversi dalla Finlandia? Sembra una buona idea per i siti focalizzati a livello locale.

Sì. Al momento ricevo molto traffico da Russia, Singapore e Cina. In precedenza era India, Pakistan, Egitto, Iran e Iraq. E scommetto che non possono finire :wink: È possibile con la Russia, però, ma… no.

I tre più grandi sono USA, Francia e Paesi Bassi, e la Germania sta crescendo. Ma questo è dovuto ai data center ed è per questo che non posso vietarli.

Ma di nuovo, con Discourse quelli sono principalmente solo fastidiosi. Con WordPress (e direi anche altri stack LAMP) quelli creano un carico così grande che la situazione inizia ad essere più vicina a un DDoS.

E la maggior parte sono di stupidi script kiddies che cercano di abbattere Discourse usando vecchi problemi di WordPress.

Ma al giorno d’oggi i bot SEO e AI hanno iniziato a essere un vero punto interrogativo.

Ma se si ha un forum locale, allora il geo-ban è solo una mossa saggia.

1 Mi Piace

Questo potrebbe assumere un ritmo problematico.

Ho visto quello che sospetto essere traffico di bot abilitato dall’IA che si stava avvicinando a un livello di interruzione DDOS poiché il servizio di discourse ha iniziato a lamentarsi.

Non è un’installazione molto potente, ma per la domanda normale prevista c’è un certo margine, normalmente.

Questa volta si è manifestato come un enorme traffico anonimo e altro.

Questo si è mappato perfettamente alle statistiche aumentate di CPU del server, carico e I/O del disco.

Come utente qui ho ricevuto molte critiche e molti (temporanei) ban per aver criticato l’adozione eccessivamente entusiasta dell’IA, che ora sta tornando indietro in molti modi (come la perdita di posti di lavoro, ma e ora questo, che potrebbe essere una continuazione dell’OP e non è altro che l’ultimo traffico di bot web abilitato dall’IA che si fa conoscere, oh boy.

Allora la mia opinione era che fosse (anche) il momento di pensare a tutte le strategie per mitigare per il cliente/utente finale, non semplicemente unirsi alla corsa agli armamenti come partner secondario, quella logica in stile Musk è se non puoi batterli unisciti a loro in questo caso, facile a dirsi, ma non l’opzione corretta e la richiesta di regolamentazione ingenua.

Farsi da parte?

Forse è troppo tardi adesso.

Il traffico AI potrebbe arrivare in modo più simile a quello umano: tecnicamente non so come funzioni (ma so come siamo arrivati ​​qui) se non che probabilmente si spaccia più facilmente per traffico umano e presenta un traffico più non rilevabile che sembra anche desiderabile dal punto di vista di Google, ma oh caro, questo potrebbe essere un problema nuovo più grande.

Niente è mai GRATIS, non so quanti (di nuovo) siano stati così accecati da questo e non abbiano applicato la cautela umana e scelto un’opzione di stand back.

Al momento quel traffico arriva ancora da regioni molto specifiche e anche i blocchi ASN sono sufficienti per eliminare chirurgicamente il calore.

Per quanto tempo?

Questo è abbastanza normale, gestisco molti siti e CloudFlare mostra solitamente da 10 a 30 volte il mio traffico reale. Se non attivano l’analisi, sono bot o crawler dei motori di ricerca. Poiché la maggior parte dei bot non eseguirà Javascript utilizzato per l’analisi.

1 Mi Piace

CloudFlare è gratuito :wink:

2 Mi Piace

Questi sono apparsi in Google Analytics. Quella era la differenza, se non ricordo male.

Se sei veramente preoccupato, usa CloudFlare e implementa un firewall per bloccare i paesi problematici. Se il tuo IP era già presente nel DNS, ottieni un nuovo indirizzo IP. Questo, se sei sotto attacco.

1 Mi Piace

In effetti, il server era già sul DNS di CF ma non in proxy poiché pensavo ancora che non funzionasse dai vecchi consigli di configurazione. Sai, la paura della nuvola arancione è forte. :sweat_smile:

Tuttavia, l’ho provato durante una delle ondate e ho mitigato il volume relativamente facilmente dopo un po’ di osservazione. Sembra che abbia eliminato molto più traffico oltre a questo.

L’unico modo per ottenere un nuovo indirizzo IP è passare a un nuovo server?

Dipende dal tuo servizio di hosting. Alcuni, come DigitalOcean, possono semplicemente assegnare un nuovo indirizzo IP statico nella dashboard, altri. Potrebbe essere necessario chiedere loro. Non lo spengo mai. Se spengo la nuvola arancione, considero quell’IP compromesso. Se perdi traffico accendendolo, è probabile che le impostazioni SSL non siano corrette. O la cache non è corretta. Fare scambi live con CloudFlare può essere complicato se non hai già impostato correttamente SSL. Poiché è difficile ottenere un indirizzo IP non memorizzato nella cache dal DNS per testarlo.

1 Mi Piace