Indagare sul traffico bot sospetto utilizzando Google Analytics
Questa guida fornisce un processo passo dopo passo per l’utilizzo di Google Analytics 4 (GA4) per aiutare a identificare e indagare su attività bot sospette.
1. Comprendere il filtro bot predefinito di GA4
GA4 esclude automaticamente il traffico da bot e spider noti per impostazione predefinita.[1] Questo filtro si basa sulla ricerca di Google e sull’International Spiders & Bots List dell’IAB.
I passaggi in questa guida servono ad aiutarti a identificare bot più sofisticati o sconosciuti che potrebbero non essere presenti in questa lista.
2. Analizzare il traffico per pattern insoliti
I bot spesso generano traffico che si discosta significativamente dai tuoi pattern utente tipici.
Passaggi:
-
Controllare i report in tempo reale:
- Vai su Report > Pagine in tempo reale. Cerca picchi improvvisi e inspiegabili di “Utenti attivi negli ultimi 30 minuti”. Questo può essere il primo segno di un aumento dell’attività bot.
Se pensi che il tuo sito sia sotto attacco spam, consulta la nostra guida su Immediate actions you can take during a spam attack -
Indagare la posizione geografica:
-
Vai su Report > Demografia > Utente > Attributi utente > Dettagli demografici.
-
Il grafico predefinito mostrato dovrebbe essere Dettagli demografici: Paese. Cerca un alto numero di utenti da paesi che non prendi di mira, dove non hai presenza commerciale o dove solitamente non ricevi molto traffico. Un’improvvisa impennata da una singola località inaspettata è un campanello d’allarme importante.
-
-
Analizzare le fonti di traffico per spam di referral:
-
Vai su Report > Acquisizione > Acquisizione traffico.
-
Il report predefinito è “Gruppo canale sessione predefinito”. Clicca sulla freccia a discesa accanto alla dimensione primaria e seleziona Origine / mezzo sessione. Scansiona fonti di referral sospette o privi di senso (ad esempio,
"free-traffic-seo.com","buttons-for-your-website.com"). Questi sono segni classici di spam di referral[2].
-
3. Esaminare le metriche di comportamento utente
Le metriche comportamentali potrebbero essere lo strumento più potente di GA4 per separare gli utenti umani dai bot.
Passaggi:
-
Cercare tempi di coinvolgimento bassi:
- Vai su Report > Coinvolgimento > Pagine e schermate.
In GA4, il Tasso di coinvolgimento è la percentuale di sessioni durate più di 10 secondi, con un evento di conversione o con almeno 2 visualizzazioni di pagina. Questa è una visione più sfumata della sessione rispetto alla precedente misurazione del “tasso di rimbalzo”.-
La metrica Tempo medio di coinvolgimento mostra quanto tempo il tuo sito è rimasto in primo piano per gli utenti. I bot trascorrono tipicamente molto poco tempo su una pagina. Ordina la tabella per “Tempo medio di coinvolgimento” (crescente) per trovare pagine con un coinvolgimento insolitamente basso nonostante un numero significativo di visualizzazioni.
-
Cerca pagine con molte “Visualizzazioni” ma un “Tasso di coinvolgimento” molto basso. Questo indica che gli utenti atterrano sulla pagina e se ne vanno immediatamente, un comportamento comune dei bot.
Se non vedi la colonna “Tasso di coinvolgimento”, dovrai aggiungerla. Clicca sull’icona della matita (Personalizza report) nell’angolo in alto a destra, seleziona “Metriche” e aggiungi “Tasso di coinvolgimento” al report. Ricorda di salvare le modifiche. -
Controllare le pagine di atterraggio:
-
Vai su Report > Coinvolgimento > Pagina di atterraggio.
-
Nella navigazione a sinistra, vai su Report > Coinvolgimento > Pagina di atterraggio. Cerca pagine con un alto numero di Nuovi utenti ma un Tempo medio di coinvolgimento estremamente basso. Questo pattern suggerisce traffico automatizzato che colpisce punti di ingresso specifici del tuo sito e se ne va immediatamente.
-
4. Cosa Google Analytics non può dirti 
- Indirizzi IP: Come Google Search Console, Google Analytics non riporta gli indirizzi IP degli utenti. Queste informazioni possono essere trovate solo nei tuoi log del server. L’analisi dei log del server è fondamentale per bloccare IP dannosi.
Conclusione
Sebbene Google Analytics possa essere utile nell’identificare pattern di traffico sospetti, per rallentare o bloccare i crawler indesiderati su un forum Discourse, dovrai modificare alcune impostazioni dei crawler trovate sotto Admin > Config > Security.
Discourse blocca già per impostazione predefinita diversi crawler aggressivi (mauibot, semrushbot, ahrefsbot, blexbot, seo spider) tramite l’impostazione Blocked crawler user agents. Per altri bot che scegli di bloccare completamente, aggiungi il loro user agent a questa lista.
Per bot meno aggressivi ma comunque intensivi per le risorse, puoi aggiungerli a Slow down crawler user agents per ridurre la loro velocità di crawling senza bloccarli completamente. Per impostazione predefinita, questo limita già la frequenza dei bot AI comuni (gptbot, claudebot, anthropic-ai, brightbot). Puoi gestire la velocità di rallentamento tramite l’impostazione del sito Slow down crawler rate, che controlla il numero di secondi tra le richieste consentite (predefinito: 60 secondi).
Esiste anche un’impostazione Allowed crawler user agents, che funge da whitelist rigorosa. Se aggiungi qualsiasi user agent a questa lista, tutti gli altri crawler verranno bloccati. Utilizzala solo se desideri limitare il tuo sito a un insieme specifico di crawler.
Fai molta attenzione quando apporti modifiche a queste impostazioni. Ad esempio, alcuni proprietari di siti hanno bloccato accidentalmente tutto il traffico dai motori di ricerca legittimi configurando erroneamente questa impostazione.
Infine, ricorda che queste misure non sono infallibili. I crawler evolvono costantemente e potrebbero non essere ben comportati; potrebbero cambiare le loro stringhe user agent o distribuire le richieste su più indirizzi IP per aggirare questi limiti. Pertanto, sebbene queste impostazioni possano fornire una solida prima linea di difesa, dovresti continuare a monitorare le tue analisi e i log del server per nuovi o insoliti pattern.