Questa guida spiega come gestire i web crawler sul tuo sito Discourse.
Livello utente richiesto: Amministratore
I web crawler possono influire in modo significativo sulle prestazioni del tuo sito aumentando le visualizzazioni di pagina e il carico del server.
Quando un sito nota un picco nelle visualizzazioni di pagina, è importante verificare come i web crawler si inseriscono nel quadro generale.
Verifica dell’attività dei crawler
Per verificare se i crawler stanno influenzando il tuo sito, naviga nel report Visualizzazioni di pagina consolidate (/admin/reports/consolidated_page_views) dalla tua dashboard di amministrazione. Questo report suddivide i numeri delle visualizzazioni di pagina degli utenti registrati, degli utenti anonimi e dei crawler.
-
Un sito in cui i crawler funzionano normalmente:
-
Un sito in cui i crawler sono fuori controllo:
Identificazione di crawler specifici
Vai al report User Agent Web Crawler (/admin/reports/web_crawlers) per trovare un elenco di nomi di web crawler ordinati per numero di visualizzazioni di pagina.
Quando un web crawler problematico raggiunge il sito, il numero delle sue visualizzazioni di pagina sarà molto più elevato rispetto agli altri web crawler. Tieni presente che potrebbero esserci diversi web crawler dannosi in funzione contemporaneamente.
Blocco e limitazione dei crawler
È buona abitudine non bloccare i crawler dei principali motori di ricerca, come Google, Bing, Baidu (cinese), Yandex (russo), Naver (coreano), DuckDuckGo, Yahoo e altri, in base al tuo paese.
Quando un web crawler è fuori controllo, è molto probabile che lo stesso crawler abbia raggiunto altri siti e che qualcun altro abbia già richiesto informazioni o creato report su di esso, che saranno utili per capire se limitare o bloccare quel particolare crawler.
Tieni presente che alcuni crawler potrebbero contribuire a un gran numero di visualizzazioni di pagina se utilizzi servizi di terze parti per monitorare o aggiungere funzionalità al tuo sito tramite script, ecc.
Per ottenere un elenco di web crawler inaffidabili, puoi fare riferimento a questo elenco: https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
Regolazione delle impostazioni dei crawler
Nella sezione Admin > Impostazioni sono presenti alcune impostazioni che possono aiutare a limitare la frequenza di specifici crawler:
-
Rallenta i crawler utilizzando:
slow down crawler user agentsslow down crawler rate
-
Blocca i crawler con:
blocked crawler user agents
Assicurati di conoscere il nome esatto dello user agent per i crawler che desideri controllare. Se modifichi una delle impostazioni sopra e non noti una riduzione delle visualizzazioni di pagina di quell’agente, potresti voler verificare di aver utilizzato il nome corretto.
In caso di dubbi su come agire, inizia sempre con l’opzione “rallenta” anziché un blocco completo. Verifica nel tempo se ci sono miglioramenti. Puoi procedere con un blocco completo se non noti risultati apprezzabili.


