Crawler non identificato con un alto numero di visualizzazioni di pagina

Ciao a tutti!

Quando analizziamo il conteggio delle visualizzazioni di pagina del nostro crawler, sembra esserci una voce non identificata che ha generato oltre 500.000 visualizzazioni di pagina in un mese:

C’è un modo semplice per scoprire di cosa potrebbe trattarsi? Sembra registrare in media circa 10.000-15.000+ accessi al giorno.

Se sei nel nostro supporto email per l’hosting, possiamo occuparcene noi per te.

Siamo un progetto FLOSS self-hosted, quindi immagino che questa opzione sia da escludere :slight_smile:

So che potrei aggiungere ulteriori filtri e chiedere al nostro responsabile infrastruttura di analizzare più log — mi chiedevo solo se qualcun altro avesse già visto questo problema prima.

Controlla i log di nginx (access.log) per le richieste provenienti con quel user agent e il rispettivo IP.

Ho appena incontrato di persona il nostro lead SysAdmin e ho capito. È HAProxy che esegue un controllo di stato ogni 5 secondi :joy:

I controlli di salute dovrebbero impostare un User Agent corretto, così che questo non accada di nuovo. Inoltre, puoi utilizzare la route /srv/status per i controlli di salute.

“Sì, dovrebbe, ma sono pigro.” - SysAdmin

Vediamo cosa posso fare. Grazie!