Questa guida spiega come gestire i web crawler sul tuo sito Discourse.
Livello utente richiesto: Amministratore
I web crawler possono avere un impatto significativo sulle prestazioni del tuo sito aumentando le visualizzazioni di pagina e il carico del server.
Quando un sito nota un picco nelle visualizzazioni di pagina, è importante verificare come i web crawler si inseriscono in questo contesto.
Controllo dell’attività dei crawler
Per vedere se i crawler stanno influenzando il tuo sito, vai al rapporto Traffico del sito (/admin/reports/site_traffic) dalla tua dashboard di amministrazione. Questo rapporto scompone i numeri delle visualizzazioni di pagina da parte degli utenti del browser con accesso effettuato, utenti del browser anonimi, crawler e altre fonti.
Un sito in cui i crawler funzionano normalmente:
Un sito in cui i crawler sono fuori controllo:
Identificazione dei crawler specifici
Vai al rapporto User Agent dei web crawler (/admin/reports/web_crawlers) per trovare un elenco dei nomi dei web crawler ordinati per conteggio delle visualizzazioni di pagina.
Quando un web crawler problematico colpisce il sito, il numero delle sue visualizzazioni di pagina sarà molto più elevato rispetto agli altri web crawler. Tieni presente che potrebbero esserci diversi web crawler dannosi in funzione contemporaneamente.
Blocco e limitazione dei crawler
È buona norma non bloccare i crawler dei motori di ricerca principali, come Google, Bing, Baidu (cinese), Yandex (russo), Naver (coreano), DuckDuckGo, Yahoo e altri, a seconda del tuo paese.
Quando un web crawler è fuori controllo, c’è una buona probabilità che lo stesso crawler abbia colpito altri siti e che qualcun altro abbia già richiesto informazioni o creato rapporti al riguardo che saranno utili per capire se limitare o bloccare quel particolare crawler.
Tieni presente che alcuni crawler potrebbero contribuire con un gran numero di visualizzazioni di pagina se utilizzi servizi di terze parti per monitorare o aggiungere funzionalità al tuo sito tramite script, ecc.
Per ottenere un registro dei web crawler inaffidabili, puoi fare riferimento a questo elenco: \u003chttps://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt\u003e
Modifica delle impostazioni dei crawler
In Amministrazione > Impostazioni ci sono alcune impostazioni che possono aiutare a limitare la velocità di specifici crawler:
-
Rallenta i crawler utilizzando:
slow down crawler user agents— per impostazione predefinita includegptbot,claudebot,anthropic-aiebrightbotslow down crawler rate— il numero di secondi tra le richieste consentite per crawler (predefinito: 60)
-
Blocca i crawler con:
blocked crawler user agents— per impostazione predefinita includemauibot,semrushbot,ahrefsbot,blexboteseo spider
-
Consenti solo crawler specifici con:
allowed crawler user agents— quando impostato, solo i crawler elencati saranno autorizzati ad accedere al sito; tutti gli altri saranno bloccati. Questo agisce come una lista bianca rigorosa. Attenzione: l’impostazione di questo parametro sovrascriveràblocked crawler user agentse bloccherà tutti i crawler non presenti nell’elenco, inclusi i principali motori di ricerca se non sono inclusi.
Assicurati di conoscere il nome esatto dell’user agent per i crawler che desideri controllare. Se modifichi una delle impostazioni sopra e non vedi una riduzione delle visualizzazioni di pagina di quell’agente, potresti voler ricontrollare che stai utilizzando il nome corretto.
In caso di dubbi su come agire, inizia sempre con l’opzione “rallenta” anziché con un blocco completo. Controlla nel tempo se ci sono miglioramenti. Puoi procedere con un blocco completo se non noti risultati apprezzabili.

